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الإهداء 


إلى من غابت عنهم الأعين وسكنوا القلب والعقلء 
أبي الغالي وأستاذي أ.د حشمت قاسم 
رحمهما الله وطیب تراهما 


وإلى أمي الغالية التي بها نغنى ونستغني. 


¢ 0% 


إن لم تكن صاحب فضل 
فلا تنس للناس أفضالهم 
شجد بنسب الجميل لا صله 
واذکر لکل کریم خصاله 


لقد كان أستاذي الكبير العالم الجليل» أ.د حشمت قاسم» رائد علم المعلومات 
وأفضل من كتب وترجم مؤلفات عالمية في مجال استرجاع المعلومات الدافع 
الأكبر نحو تأليف هذا الكتاب. فقد راجع أول بحث أعددته باللغة الإنجليزية وآخر 
بالعربية» وكانا في مجال استرجاع المعلومات» فحفزني إلى ضرورة ترجمة أو تاليف 
کتاب في مجال استرجاع المعلومات. 

عكفت أكثر من خمس سنوات على تأليف هذا الكتاب. طالعت خلالها وتابعت 
مايحدث في هذا المجال من تطورات لم يتسع الكتاب لعرضها بالكامل. وأحسبه قد 
بدآمن النقطة التي توقف عندها آخر كتاب في هذا المجال ترجمه أستاذنا الفاضل 
أ.د حشمت قاسم والذي کان بعنوان «(أساسيات استرجاع المعلومات». فوجدت أنه 
من الضروري أن يكون هناك كتاب يكمل ماحدث من تطورات في البية الرقمية 
التي شهدت ظهور آليات وأدوات جديدة لمعالجة واسترجاع المعلومات. وقد كانت 
أبضا كلمات آستاذي رحمة الله عليه دافعاً ومحفزا لإصدار الكتاب: 


وقد تم بناء الهيكل العام لهذاالكتاب من منطلق التعامل مع قضايا تمثيل المعرفة 
ومعالجتها واسترجاعها على مستويين أساسيين هما: طرق المعالجة» والتوجهات 
الحديثة التى تناولتها الدراسات التى تم نشرها فى خلال العقدين الأول والثاني من 
القرن الجديد. 


تم استخدام مصطلح تمثيل المعرفة في هذا الكتاب إشارة إلى المعنى العام 
للمعرفة الذي يتضمن البيانات والمعلومات والمعرفة. لذلك بدأ الكتاب بعرض لهرم 
المعرفة ومكوناته. 


ويشتمل الكتاب على أحدعشر فصلا تناول كل فصل من هذه الفصول قضية 
آساسية من قضايا تمثيل المعرفة واسترجاعها. ويتم استخدام مصطلح المعرفة هنا 


وقد بدأ الكتاب في الفصل الأول بعرض لقضايا تمثيل المعرفة من حيث المفاهيم 
والتعريفات الأساسية» وتطور آليات معالجة المعرفة وتمثيلها واسترجاعها. 


تناول الفصل الثاني مشكلة تمثيل واسترجاع المعلومات بشقيها الرياضي الذي 
يركز على قياس كفاءة النظم وإمكانيات الاسترجاع» والإجرائي الذي يستعرض 
المكونات الأساسية لأي نظام لتمثيل المعرفة واسترجاع المعلومات وتحديات 
التمثيل والاسترجاع. 


واستعرض الفصل الثالث طرق تمثيل المعرفة التي تتضمن خمس طرق أساسية 
هي: التكشيف. التصنيف أو التقسيم إلى فغات» التوسيم الاجتماعي» التلخيص» 
الملخص الوافي للموقع. 

تناول الفصل الراإبع مصادر البيانات بنظم تمثيل المعرفة والتي تأتي من ثلاثة 
مصادر أساسية هي البيانات والميتاداتا والنصوص الكاملة و الكيانات الرقمية الكاملة. 
وقد عرض الفصل آليات هيكلة البيانات من خلال استخدام الميتاداتا وإجراءات 
معالجة الكيانات الرقمية وما تتضمنه من نصوص كاملة. 


وركز الفصلان الخامس والسادس على مناقشة قضية اللغخة ودورهافي تمثيل 
واسترجاع المعرفة بمفهومها الواسع. وقد عرض الفصل الخامس أهم آليات تكويد 
المعرفة سواء من خلال آليات التصنيف الذي يستخدم دلالات رمزية أو من خلال 
لخات التكشيف الاصطناعية والطبيعية وأثر كل منهما في بنية النظم وإجراءات 
الاسترجاع. كماتم عرض تطور لغخات التكشيف والتحديات التي تعالجها تلك 
اللغات كأدوات لتمثيل المعرفة. كماتم عرض لغات التكشيف في البيشة الرقمية 
بأنواعها المختلفة. 


الفصل السابع تناول آليات البحث واسترجاع المعلومات والاعتبارات التي يجب 
مراعاتها عند إجراء عمليات البحث عن المعلومات» والتي تشمل تمثيل وصياغة 
الاستفسارات» إجراءات الببحث وآلياته المختلفة سواء من حيث طريقة الببحث أو 
حقول البحث. كمايعرض الفصل أساليب اختيار آلية الببحث الملائمة إلى جانب 
معايير تقييم النتائج. 

استعرض الفصل الثامن أساليب الاسترجاع التي تشمل ثلاثة أساليب أساسية 
هي: البحث» التصفح» والنموذج الهجين من البحث والتصفح. ويعالج هذا الفصل 
الأساليب الثلاثة المستخدمة في استرجاع المعلومات من حيث الملامح والتطبيقات 
والمزايا والعيوب. 

وركز الفصل التاسع على عرض نماذج استرجاع المعلومات» التي تعتمد في 
الآأساس على نظم المضاهاة والمطابقة بين المصطلحات» فاستعرض أساليب 
المضاهاة المختلفة» ثم النماذج الثلاثة الأساسية وهي النموذج البوليني» نموذج 
الفراغ الاتجاهي» النموذج الاحتمالي. واختتم الفصل بعرض لاآليات الدمج بين 
النماذج لتوسيع إمكانيات نظم استرجاع المعلومات» والذي يتضمن النموذج البوليني 
الموسع ونموذج المجموعة الضبابية. 


الفصلان العاشر والحادي عشر ركزاعلى الأسترجاع في بيئة الويب من خلال 


استعراض ملامح بيثة الويب وتطور آليات الاسترجاع وأنواعها التي تضمنت الإبحارء 
التصفح» البحث مع التركيز على محركات البحث ومكوناتها وآنواع الزواحف وآليات 
عملهاء ثم ما وراء المحركات وبوابات الويب وأنواعها. وركز الفصل الحادي عشر 
على عرض لمراجعة علمية تفصيلية للدراسات المتعلقة بتمثيل المعرفة بمحركات 
الببحث وآليات تكشيفها وفرزها في بيئة الويب. وركز بصفة أساسية على المنهجيات 
والقياسات المتبعة في دراسات الويب. وقد تم تقسيم الدراسات إلى دراسات واقعية 
تعمل في البيئات التشغيلية ودراسات معملية تتم في المختبرات وفي بيئات اصطناعية» 
ثم تناول الفصل آليات التكشيف وطرق دراستها. وعرض لكل السبل الممكنة لدفع 
التتائج وترقيتها بمحركات البحث» إلى جانب عرض لطبيعة المشكلات التي تتناولها 
الدراسات بغخرض توضيح اتجاهات الإنتاج الفكري في هذا المجال إلى جانب طبيعة 
المناهج والأساليب المتبعة في دراسة تلك المشكلات. وهذا الفصل على وجه 
الخصوص يعد أداة تمكن الباحثين من التعرف إلى طرق وأساليب إجراء دراسات 
الويب بصفة عامة ودراسات استرجاع المعلومات في بيئة الويب بصفة خاصة» سواء 
في البيئات الاصطناعية المعملية أو البيئات الحقيقية التشغيلية. 


الفص الأول 


تمثيل المعرفة 
واسترجاع المعلومات: 
نظرة عامة 


1 مقدمة 


يرجع تاريخ نظم تمثيل المعرفة واسترجاع المعلومات إلى بدايات النصف الثاني 
من القرن التاسع عشر» وبالتحديد إلى عام 1876 عندما وضع ميلفل ديوي” 1ز۷[ءM‏ 
ره۷ه( أسس تمثيل المعرفة الحديث من خلال خطة التصنيف المعروفة باسمه كأداة 
أساسية لتنظيم وإتاحة المعرفة (1985 ,إ0ارة1 & همر۷). مع ذلك فإن مجال تمثيل 
المعرفة واسترجاع المعلومات لم يصبح مجالا محوريا للإبحث ضمن مجالات علم 
المعلومات إلا مع نهاية الحرب العالمية الثانية. ومنذ ذلك التاريخ بدأت جهود مكثفة 
لتطوير هذا المجال الخصب» حيث جذب اهتمام الباحثين في مجالات متعددة. 
ويرجع ذلك بصفة أساسية إلى توظيف تكنولوجيا المعلومات منذ البداية في البحوث 
والتطوير بهذا المجال بدرجات متنوعة من التعقيد والنضج الأكاديمي. 

يعد مصطلحا تمثيل المعرفة واسترجاع المعلومات المستخدمان في هذا السياق 
تطوراً للعديد من المصطلحات التي ظهرت منذ بداية القرن العشرين وحتى الآن» 
ومنها مصطلحات مثل التكشيف والاستخلاص» استرجاع المعلومات ومعالجة 
وتنظيم المعلومات,» إدارة المعرفة.. إلخ. 


المعلومات مع التركيز على الملامح الأساسية التي شهدتها كل فترة. 
(1) ميلفل ديوي yeweD »ا1ivاeM» htussoK siuo1 e111v1]eM‏ ( 10 دیسمبر 1851 - 26 دیسمبر 


1 بمدينة نيويورك وهو مطور ومؤسس أشهر خطط التصنيف الحديثة والمعروفة باسمه 
(خحطة تصنيف ديوي انلعÃiژjي .(metsys noitacfiissalC lamiceD yeweD)‏ 


الفصل الأول 


واسترجاع المعلومات» ثم مناقشة المكونات الأساسية لنظم تمثيل المعرفة واسترجاع 
اnlعلو Knowledge Representation and Information Retrieval ln‏ وسينتھى هذا 
الفصل بشرح وتوضيح المشكلة الأساسية التي يعالجها هذا المجال والتي بمكن إيجازها 
فى كيفية الحصول على المعلومات الملائمة التى تلبى الاحتياجات المعرفية لمستفيد 
بعينه في الوقت المناسب. ونظرأً للعلاقة الوثيقة بين مجال تمثيل المعرفة واسترجاع 
تمثيل واسترجاع المعلومات؛ نظرأ لأن المعرفة مفهومة ضمنا أنها الهدف الأساس من 
كل عمليات تجميع البيانات وتجهيزها ومعالجتها وإنتاج المعلومات وتنظيمها وإتاحتها. 


1.1 مراحل تطور تمتيل المعرفة ونظم استرجاع المعلومات 


إن تاريخ نظم تمثيل واسترجاع المعلومات ليس طويل5 ومع ذلك فقد شهد تطوراً 
سريعاً خلال الربع الأخير من القرن العشرينء والذي يُنظر إليه على آنه مرحلة إزالة 
الغموض عن هذا المجال. ويرى الباحثون أن مجال استرجاع المعلومات مر بأربع 
مراحل أساسية بداية من مرحلة زيادة الطلب على المعلومات حتى مرحلة عصر 
المشابكة ۴۲۵ لء)إم سه الذي نعيشه حالياً. ونستعرض فيما يلي مراحل تطور نظم 
تمثيل واسترجاع المعلومات. 


1.1.1 مرحلة زيادة الطلب 
(بداية الأربعينات إلى بداية الخمسينات) 


آدت الحرب العالمية الثانية إلى سرعة وتيرة التطوير في مجالات العلوم 
والتكنولوجياء والتي أسهمت بصورة كبيرة في ظهور مجال تمثيل واسترجاع 
المعلومات» حيث أدت الحرب إلى إنتاج عدد كبير ومذهل من الوثائق والتقارير 
الفنية التي تسجل نتائج أنشطة البحوث والتطوير في مجال الصناعة وخاصة في 
مجالات صناعة الأسلحة وإدارة العمليات. وقد أدى هذا الكم الهائل من الوثائق إلى 


تمتيل المعرفة واسترجاع المعلومات: نظرة عامة 


الحاجة إلى أساليب جديدة لمعالجة الوثائق للوصول إلى ماتتضمنه من معلومات» 
حيث إن البشرية لم تواجه من قبل هذه المهمة الصعبة» والتي تمثلت في التعامل 
مع هذاالكم الهائل من الوثائق المهمة دون النظر إلى الجوانب الأخرى الخاصة 
بمعالجة وإدارة المعلومات مثل الاختيار والبث والحفظ. 


وقد أوضح فانفر بوش (101ص ,5,1945 8) أن أحد آهم نتائج الحرب العالمية 
الأولى زيادة الاهتمام بآنشطة الببحث والتطوير التعرف إلى ما تتضمنه الوثائق التي 
نتتجت عن تلك الحرب من معلومات. فقد أتاحت الحرب الوصول إلى كم كبير من 
نتائج البحوث السرية التي احتاجت إلى الدراسة والتحليل» مايعد مؤشرا قويا إلى 
أن البشرية دخلت في مرحلة التعمق والتوسع في التخصصات العلمية. وقد واجه 
المكشفون مشكلات كبيرة نظرا للحاجة إلى استيعاب هذا الكم الهائل من الوثائق 
واستخلاص النتائج» ويبدو آنهم لم يستطيعوا التعامل إلا مع قدر قليل ومحدود 
جدأمن المعلومات بسبب عقم أساليب الوصول إلى المعلومات في ذلك الوقت. 
وقد أصبح من الواضح أنه توجد حاجة حقيقية وضغط شديد نحو أساليب أكثر 
كفاءة لتمثيل وتنظيم هذا الكم الهائل من المعلومات وخاصة في مجالات الكيمياء 
والبيولوجياوالصناعة. 


المثال» تقوم دور النشر والطبع في مجال الكيمياء الحيوية بنشر نحو مليوني وثيقة سنويا 
(2009 ,4اHies).‏ ما يشير إلى مدى صعوبة التعامل مع تلك الوثائق باستخدام الأساليب 
التقليدية في الوصول إلى المعلومات. وتشير الإحصاءات إلى أن الباحث الواحد يحتاج 
إلى ساعة على الأقل لقراءة بحثين» فإذا افترضنا جدلا أن هذا الباحث يستطيع قراءة 
بحوث ب 70 لخة مختلفة» ونه يستطيع الوصول إلى كل الوثائق المنتجة في مجال الكيمياء 
الحيوية (مليونا وثيقة سنوياً) في حوزته وبين يديه ويمكنه قراءة دورية واحدة في اليوم 
وأن العام به 365 يوماًء فإنه بحاجة إلى 27.4 قرناً لقراءة مخرجات البحوث في عام واحد 
فقط فى مجال الكيمياء الحيوية .(Borko & Bernier,1975, P.6)‏ 


وعلى الرغم من أن عدد التقارير الفنبة التي تم إنتاجها خلال فترة الأربعينات 


الفصل الأول 


والخمسينات لايمكن تحديدها بدقة» حيث إن حجم هذه الوثائق يمكن تقديرها وفقاً 
للتقدير السابق لمجال الكمياء الحيوية» ومع هذاالكم الهائل من الوثائق لايمكن 
للإنسان أن يعتمد حصرياً على مهاراته وذاكرته وملفاته الخاصة لتنظيم واسترجاع 
ظهرت الحاجة إلى جهود مكثفة في مجال تمثيل واسترجاع المعلومات» وقد تنتج 
عنها أيضاً الحاجة إلى تطوير نظم لأغراض استرجاع المعلومات على الرغم من أنها 
كانت نظما يدوية مثل كشافات الربط المسبق التي تم تطويرها في البداية عام 1951 
والتى كانت أدوات فعالة فى ذلك الوقت (2140۸,1988س؟). 


1.1.2 النمو المتسارع (الخمسينات حتى التمانينات) 

تعد هذه الفترة هي الفترة الذهبية في نمو وتطور مجال تمثيل واسترجاع المعلومات؛ 
حيث شهدت دخول واستخدام الحاسب الآلي في هذا المجال خلال الفترة من -1957 
9 وذلك عندما استخدم هانز بيتر لوهان طن[ إعاء۴ كمه البطاقات المثقبة في 
معالجة ومضاهاة الكلمات المفتاحية وترتيب المواد إلى جانب الأعمال الفكرية المرتبطة 
بتحليل محتوى النصوص .)841۲0١,1987(‏ وقد دى ظهور نظم الاسترجاع على الخط 
المباشر مثل ديالوج 0141.06 في الستينات والسبعينات من القرن الماضي إلى الانتقال 
من نظم استرجاع المعلومات اليدوية إلى النظم المتاحة على الخط المباشر. وقد وصف 
هاهن (1996, )141١‏ النظم الرائدة التي تم تطويرهافي هذه المرحلة بمايلي: 


اشتملت هذه النظم على مجموعة مهمة من الملامح المتطورة مثل المكانز المتاحة 
على الخط المباشر» فرز النتائج» الدمج الآلي للمترادفات أثناء إجراء البحث» المنطق 
البولينى»البتر من جهة اليسار وجهة اليمين eft and right hand ۲01٥04101‏ الببحث 
فی المصادر المستهدفة» الببحث باللغة الطبيعية فى النصوص الحرة. كما أتاحت 
a‏ النظم إمكانيات التجميع الآلي للبيانات» را لمراقبة معدلات الاستخدام» 
ومدى رضا المستفيدين عن النظم. 


وقد أسهم في نمو ونضج نظم استرجاع المعلومات على الخط المباشر إلى 
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جانب تطوير الأساليب الآلية والتجارب التي تمت في مجال استرجاع المعلومات» 
التطورات التي تمت في تكنولوجيا الحاسبات في ذلك الوقت. وقد كرس الباحثون 
في العديد من المجالات وخاصة علوم الحاسب مجهوداتهم للبحوث والتطوير 
في هذا المجال» وعلى الرغم من ذلك ظلت العديد من المشكلات الإضافية التي 
تحتاج إلى جهود بحثية مكثفة» حيث لخص سالتون (51۲0,1987) في أحد كتبه 
هذه المشكلات بمايلي: 


على الرغم من التقدم الكبير الذي حدث خلال الثلاثين عاماً الماضية في مجال 
معالجة النصوص واسترجاع المعلومات وخاصة في مجال تحرير النصوص وإنتاج 
الوثائق وتحديد كلمات الكشاف والتجميع الآلي وبناء الاستفسارات وبحثها آليا؛ 
إلاأنه توجد حاجة إلى جهود مكثفة في مجال فهم النصر ص Text Understandi1¥ğE‏ 
والمعالجة الدلالية للمعلو ھت ù .Informtion Syemantic Processing‏ ثم فإن هذه 
المرخاة ركرت على ترطف كامات انعبات ايت فى تيل ارجا الصو 
ولكن ظلت عمليات فهم وتحليل دلالات النصوص تمثل مشكلة كبيرة للباحثين. 


1.1.3 مرحلة إزالة الغخموض 1980 - 1990 


على الرغم من وصف نظم استرجاع المعلومات سابقا بأنها نظم تم تطويرها 
لخدمة الاحتياجات المتنوعة والمتغيرة للمستفيدين منها؛ إلا أن هذه النظم لم يتم 
تیمها بحت يمك لامسد آ0 بت فا باقر ة دون الحاجة إلى تدرب أو 
والمعلومات كانوايقومون بإجراء البحث نيابة عن المستفيدين فيماعرف بوسطاء 
الببحث كإ0اaةنلMe‏ طءa۲ءS.‏ إضافة إلى أن عملية الببحث باستخدام هذه النظم کانت 
مكلفة للغاية» لما تتضمنه من مجموعة متنوعة من الرسوم» منها على سبيل المثال 
کے جات الاتصال عن بعد Telecommunicati01ء‏ كلفة الاتصال نفسه» رسوم 
اشتراكات قواعد البيانات.. إلخ» كما أن الرسوم كان يتم تحصيلها مقابل كل عملية 
بحث تتم. ومن ثم فمصطلح المستفيد النهائي ١إهوں‏ 8 الذي استخدم للإشارة إلى 


الفغصل الأول 


أصحاب الاحتياجات المعرفية لم یکن يمثلهم تمثيلاً حقيقياًء حيث إنهم لم يكونوا 
قادرين على إجراء البحث في تلك النظم بانفسهم. 


ومع الوقت بدأ مفهوم المستفيد النهائي يتخير تدريجي امع ظهور الحاسبات 
الشخصية واستخدامها في عمليات البحث بنظم استرجاع المعلومات» و أيضامع 
بدايات تطبيتق نظم الاسترجاع على الأقراص المدمجة C00- ۸0١۷‏ والفهارس العامة 
المتاحة على الخط المباشر في منتصف الثمانينات من القرن الماضي. 


وتجدر اللإشارة إلى أنه في الماضي كانت نظم استرجاع المعلومات يتم 
إتاحتهامن خلال نظم متنوعة مثل الحاسبات الآليةء طابعات النهايات الطرفية 
erminasا Pinte‏ نظم البطاقات المثقبة الضوئية والميكانيكية.. الخ. وجدير 
بالذكر أن عملية التفاعل بين الباحث وتلك النظم لم تكن سلعة محفزة ولم تكن 
أيضا سهلة للمستفید رال« ء۴۲ إءءلا. وعندما تم استخدام الحاسبات الشخصية 
في استرجاع المعلومات وجد المستفيدون أنها أقل إزعاجاً وصعوبة من الأنظمة 
السابقةء نظراً لاعتمادها على حوارات فعلية للمستفيد مع الأجهزة» فيماعرف 
بالتفاعل بين المستفيدين والنظم. 


لذلك ظهر فرع جديدمن فروع علم المعلومات اهتم بالسلوك المعلوماتي 
للإنıسان nf ormation seeking Behavior‏ ورکز على تفاعل الإنسان مع الحاسبات 
.Human Computer Interaction‏ وقد ساعد ظھور نظم الأقر اص المدمجة والفهارس 
العامة المتاحة على الخط lınllشر Online Public Access Catalogs - 0°ACs‏ على 
إزالة الغموض وفض الالتباس الذي كان يكتنف عمليات البحث في تلك النظم 
وأصبح المستفيد قادرا على إجراء عملية البحث بنفسه» ولم يعد المستفيد يتأثر 
بكلفة الاتصال عند إجراء البحث على الأقراص المدمجة ونظم الفهارس المتاحة 
على الخط المباشر. ومنذ ذلك الوقت أصبحت نظم استرجاع المعلومات آنظمة تم 
تطويرها لاستخدامها من جانب المستفيد النهائي» ما أثر بصورة كبيرة في انتشار تلك 
النظم وتطويرها نظراً للتفاعل الدائم من جانب المستفيد معها. 
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1.1.4 عصر الشبكات (التسعينات حتى الآن) 


كانت نظم استرجاع المعلومات - حتى بداية التسعينات - نشاطا مركزياً؛ حيث 
يتم إدارة قواعد البيانات التي تعد المكون الأساسي لأي نظام استرجاع معلومات 
من خلال مقر مركزي واحد. فإذا كان الناس بحاجة إلى الببحث في أكثر من نظام 
استرجاع معلومات» فعليهم أن يقوموا بالاتصال بكل قاعدة بيانات على حدة. ومع 
ظهور شبكات المعلومات وانتشار استخدامها ظهرت أنماط جديدة من البحث أطلق 
عليها الببحث الموزع Distributed Searching‏ الذي يسمح للمستفيدين بدخول قواعد 
البيانات والبحث فيها دفعة واحدة باستخدام البنية التحتية لشبكات المعلومات. ومن 
ثم لم تعد نظم استرجاع المعلومات قاصرة على نظام مركزي في موقع جغرافي واحد. 
وقد ساعد تقدم الإنترنت وتطوير إمكانيات الاتصال بها على تحويل هذاالأمر إلى 
حقيقة من خلال توفير البنية التحتية للاتصال البيني بين الشبكات المتنوعة والموزعة 
عل ای ا و کے جاتب نے کا ازج اورا عادد 
الإنترنت صياغة مجال استرجاع المعلومات» ويسرت التعامل مع أساليب جديدة 
لمعالجة المعلومات» منها الطرق الإحصائية. فلم يسبق في التاريخ أن تم استخدام أو 
تطبيتى النظم الإإحصائية لمعالجة الكلمات المفتاحية مع هذاالكم الهائل من الروابط 
الفائقة ذات البنيات المتماسكة ومعلومات الوسائط المتعددة» كمالم يسبق في التاريخ 
أن قام هذا العدد الهائل من المستفيدين من إجراء البحث بنظم استرجاع المعلومات 
دون الحاجة إلى وسطاء أو مساعدة من أخصائيى المكتبات والمعلومات. وكنتيجة 
ااك ف نرد غم دل رفظ رارج لار اتاق عا ال فت 
كثيرا» ما دعا إلى ظهور مصطلح جديد وهو مصطلح تنظيم الفوضى 0۲84١17118‏ 
6 لوصف الوضع الذي ظهر مع بدايات انتشار الإنترنت وعلى وجه الخصوص 
محرکات بحث الريب ۶ع« ع٥٤‏ طءcإaمS ۷e‏ . لذلك فقد أصبح استرجاع النصوص 
الكاملة ۷e1ع ۴u ٣x Retr‏ هو النمط السائد وليس الاستثناء في الاسترجاع على 
الإنترنت» كما ساعدت الإنترنت على سرعة انتشار تقنيات استرجاع المعلومات التي 
كان يتم اختبارها مسبقا في المعامل» بحيث انتشرت نظم استرجاع معلومات التي 
تعمل عل الانترنت: ولعل أبرزها محر كات بحث الويب Google, Yahoo, Jia‏ 


الفغصل الأول 


8 مه ,ع«8» وعموماً فإن نتائج البحوث الخاصة ببيئة المختبرات يتم تطبيقها 
بصورة موسعة في نظم تمثيل واسترجاع المعلومات على الإنترنت. 


وعلى الرغم من أن المرحلة الرابعة وهي مرحلة محركات بحث الويب قد 
آثرت في كل آنماط العمل بقواعد البيانات ونظم استرجاع المعلومات التقليدية 
وفي سلوكيات المستفيدين» إلا أن هذه المرحلة نفسها مرت بالعديد من المتغيرات 
رمذت كر في السات الاعرة على عات الداء الامطاعی والریب الدلالي 
في عمليات التمثيل والبحث والاسترجاع التي سيتم تناولها بالتفصيل عند التعرض 
لتاریخ محر كات البحث. 


1.2 مفاهيم أساسية 


يهتم هذا الكتاب بأربعة مفاهيم أساسية هي: هرم المعلومات» تمثيل المعرفة 
استرجاع المعلومات» والعصر الرقمي. ويحظى كل مفهوم من هذه المفاهيم 
بمجموعة من المترادفات التى يمكن تفسيرها أو فهمها بطرق مختلفة وفى سياقات 
متنوعة. وسيتم فيما يلي توضيح هذه المفاهيم المختلفة التي يتضمنها هذا الكتاب. 


1.2.1 هرم المعرفة 


اهتم العديد من الباحثين بتفسير هرم المعلومات وتمييز عناصره التي تشمل 
البيانات» والمعلومات والمعرفة» والحكمة (0۷,1992ل4٥)»‏ ويجب في هذا السياق 
تمييز مكونات هرم المعلومات وما يتضمنه من عناصر» وعلاقة كل مصطلح فيه بباقي 
المصطلحات. ويوضح الشكل التالي مكونات هرم المعلومات بعناصره الأربعة: 

۰ البيانات 0343: هي مجموعة من الحقائق الموضوعية الخام غير المترابطة 
وغير المنظمة. ويمكن لهذ البيانات أن تكون كمية أو كيفية (إحصاءات» 
أرقام» وقائع» بيانات بغر اف و اة ها يشار إل الائات بااالمادة 
الخام للمعلومات» حيث تتحول البيانات إلى معلومات عندمايتم تجميعها 
وتنظيمها وتصنيفها وتنقيحها وتحليلها ووضعها في إطار واضح ومفهوم 
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للمت لشي فالبياتات الاير غرانبة لحتاب تشمل الولف والحتوان وبانات النشر 
انات الوصف المادي.. إلخ» وبيانات الشخص تشمل اسمه وعنوانه وتاريخ 
ميلاده ورقمه القومي ورقم جواز السفر وحالته الاجتماعية. ويتم تجميع تلك 
البيانات فى بطاقات للتحقق من هوية الكيان (الكتاب أو الشخص) فى صورة 
تسجیلات «تمثيل بيانات هذا الكيان». ۰ 


والتي تنطوي على عملية تمثيل للمحتوى وتحهيزه لعمليات 
البحث والاسترجاع الذى هو محور اهتمام هذا الكتاب». 
٠‏ المعلومات: تعرف عادة بآنها البيانات التى تمت معالجتها بحيث أصبحت 
مرتبطة بسياق معين ودلالات محددة. فالمعلومات هي بيانات توضع في 


البيانات 
مستقلة» موضوعية» تمثل حقائق منفصلة 


المعلومات 


رسالة محددة تساعد على تغيير 


مجمعة ومرتبة ومترابطة 


مرتبطة بالمواقف 
قابلة لقياس كفاءتها 
قرارات حكيمة 


شكل (1.1) مكونات هرم المعرفة 


الفصل الأول 


معينة. ويمكن التعيير عن المعلومات بأكثر من شكل منها النصوص المكتوبة. 
المسموعة» المرئية» المرسومة.. الخ. وعادة ما ينظر إلى المعلومات على أنها 
المحرك الأساسي لإحداث التغيير في البنية المعرفية للمتلقي. فبيانات الشخص 
لا يمكن من خلالها التعرف إليه» لكن يمكن تمييزه بوضوح من خلال بطاقة 
الهوية» جواز السفرء تسجيلاته الاستنادية التي تشتمل على بيانات تجميعية عن 
الكيان المطلوب تمييزه. 


ونظراً لأن الكتاب يركز على موضوع استرجاع المعلومات فيجب تمييز المقصود 
بالمعلومات في هذا السياق. فقد تم استخدام مصطلحات مثل المعلومات والنصوص 
عا والوثائق كا٣‏ عص ء0( بطريقة تبادلية في مجال استرجاع المعلومات. فالوثائق يمكن 
تصنيفها وفقا لسعرها والذي يمكن من خلاله وضعهافى أعداد وإحصاءات» والذي يعد 
المكون الأساسي لإحصاءات المواد بمؤسسات المعرفة» ومعظم هذه الوثائق تستغل 
مساحات» ويمكن أن يتم تدميرها أو أن تتعرض للتلف مع الوقت» إضافة إلى ذلك فإن 
الوثائق من الممكن أن تتضمن وسائط متعددةء فإذا كانت النصوص تشير إلى المعلومات 
النصية فقط فإن الوثائق من الممكن أن تتضمن معلومات من وسائط متعددة (مزيج من 
المواد السمعية والبصرية والصور إلى جانب المعلومات النصية). من ثم فمن الواضح 
أن المعلومات تشتمل على كل من النصوص والوثائق والتي لهادلالة أوسع من الثلاثة 
مفاهيم (المعلومات» النصوص,» الوثائق). وقد بدأالاهتمام في السنوات الأخيرة بإجراء 
بحوث ودراسات عن الاسترجاع من الفقرات Passage Retrieval‏ فى مقابلة استرجاع 
الوثائق (2000 [0١5,‏ )١۲هم8)‏ ويهتم استرجاع الفقرات والذي يطلق عليه أيضاً في 
بعض الأحيان استرجاع المعلومات» بإيجاد المعلومات ذاتها أو الفقرات نفسها (مشل 
فقرات أو أجزاء محددة من الوثيقة) التي يحتاج إليها المستفيد. ويركز استرجاع الوثائق 
على الوثيقة كاملة للمستفيد النهائي حتى لو كان المستفيد لا بحتاج منها إلا إلى جزء أو 
فقرة صغيرة. من ثم فمصطلح معلومات في هذا السياق يشير إلى مفهوم شامل لمعالجة 
كافة شكال وأنواع مواد وحاويات المعلومات سواء كانت نصية أو غير نصية بمافي 
ذلك الكيانات بأكملها مثل الكتب والمقالات أو أجزائها مثل الملخصات والفقرات. 
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المعرفة: هي المعلومات التي تم فهمها وتحليلها واستيعابها واستعمالها لإنجاز 
فعل معين أو اتخاذ قرار في ظروف معينة. فالمعرفة لا تقتصر على الأشياء الظاهرة 
والملمر مةل الق رارت بل قل ضا المهارات و الخ رات الخة راترات 
والتحليلات والاستنتاجات التي يضيفها الأفراد والجماعات» والتي يتم من خلالها 
اتخاذ القرارت. ويتم تحصيل المعرفة من المعلومات المتاحة للشخص من مصادر 
المعلومات التي يتم الوصول إليها من خلال أدوات تنظيم وإتاحة المعلومات. 

وتجدر الإشارة إلى أن المعرفة هي مجموع مايمتكله الفرد من مقومات تمكنه من 
أداء مهام وإنجاز عمال وحل مشكلات. كما آنها رأس المال البشري الذي تمتكله 
المجتمعات» فمجتمعات المعرفة هي المجتمعات التي تمتلك رأس مال بشريا قادرا 
على آداء مهام وإنجاز أعمال وابتكار حلول لمشكلات الحياة اليومية» بحيث يمكنها 
تصدير تلك الحلول في صورة تطبيقات وإرشادات. فعلى سبيل المثال» الطبيب الذي 
يمتلك المعرفة هو رأس مال بشري يستطيع حل مشكلات صحية للعديد من المرضى» 
المبرمج الجيد هو رأس مال بشري يمتلك المعرفة التي تمكنه من بناء تطبيقات تحقق 
رفاهية المجتمعات. فإذا نظرنا إلى هم شركة تأجير سيارات في العالم» وهي «أوبر» 
على سبيل المثالء نجد آنها لا تمتلك أي سيارةء وإنما تمتلك تطبيقا لمعرفة ابتكرها 
رس مال بشري استطاع توظيف البيانات والمعلومات المتاحة في بناء تطبيق مبتكر 
يحل مشكلة يواجهها الناس في حياتهم اليومية. 


وقد حاول العلماء التمييز بين عناصر الهرم المعرفي من الناحية الرياضية بأساليب 
متنوعة» لعل أبرزها التعبير عن العلاقة بين البيانات والمعلومات والمعرفة بالمعادلة التالية: 


I=c+d‏ (1= المعلومة» ل= البيانات» ء = السياق) 
المعلومات تعادل کم البيانات التى يتم استخدامها في سياقات مختلفة. 
ماع الارن عن الا ين الممار مات و الم رة الماد اغا 


ا*K=1 K((‏ =المعرفة. 1 =المعلومات» ا = الاستعمال) 


الفغصل الأول 


المعرفة تعادل كم المعلومات مضروباً في عدد مرات استخدامها. وتجدر الإشارة 
إلى أن تحويل تلك المفاهيم إلى قياسات وطرق رياضية للحساب ليس بالأمر 
السهل؛ لأن كثيراً من تلك المفاهيم عادة مايكون غير ملموس #اطانع«ةا١1.‏ ويمكن 
تخيل الأمر عند التعامل مع قاعدة بيانات تشتمل على مليون تسجيلة مثلا فحجم 
المعرفة الذي تتيحه هذا القاعدة للمستفيدين منها يعادل عدد التسجيلات المتاحة 
بها (مليون وحدة معلوماتية)» ونفترض أنه يتم استخدامها 1000 مرة يومياً وفي كل 
مرة يتم فحص 10 وحدات معلوماتية» بالتالي يكون حجم المعرفة التي توفرها تلك 
القاعدة يعادل عدد الوحدات المعلوماتية المستخدمة فى عدد مرات استخدامها 
(10*1000) يعادل 10,000 وحدة معرفية. 


كماتم ابتكار العديد من الطرق لقياس المعرفة منها طريقة القياس التي وضعها 
البنك الدولى» والتى تعرف بمنهجية تياس nllعرغفة Knowledge Assessment‏ 
Methodlogy - MAM‏ والتي تعد مقياسا تفاعلياً تم تطويره ضمن برنامج المعرفة من 
أجل التنمية for Development -K4D‏ edgeاKnow.‏ ویشتمل المقیاس على 148 متغیرا 


هیکليانو عياً and qualitative variables‏ t)ructura1ه‏ وذلك لعدد 146 دولة حول العالم 


لقياس أداء تلك الدول في 4 مقومات أساسية لقطاع اقتصاد المعرفة وهي كالتالي: 
0 نظام الحوافز الاقتصادية واأمؤ Economic Incentive and Institutional aww‏ 


Regime 


Education التعليم‎ 0 


Innovation تار‎ o 


Information and Communications ٽlصتiٺلlو تکنولوجيا المعلومات‎ ٥ 


Technologies 
ويتم حساب المتغيرات بنظام درجات من صفر إلى 10ء ثم يتم معادلة درجات‎ 


الدولة مقارنة بالدول الأخرى التي معهافي نفس المجموعة. وتحدد منهجية قياس 
المعرفة × K۸‏ مؤشر اقتصاد المعرفة الکل٫ (Knowledge Economy Index (KEI‏ 
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ومؤشر المعرفة 1&) ×ءل٣! ge‏ ل1س 0«&) بكل دولة من الدول ال 146. ويشير مؤشر 
المعرفة إلى قدرة الدولة على إنتاج ونشر المعرفة» في حين يشير مؤشر اقتصاد العرفة 
إلى ۴1 إلى قدرة الدولة على توفير البيئة المحفjة Prevailling Bussiness JlneÎll‏ 
Environement‏ والتي يتم فيها توفير المعرفة المحفزة للأنشطة الاقتصادية والتي 
تحقق التنمية والخير للمجتمع " )2006( World Bank‏ . 
كما قامت مؤسسة محمد بن راشد آل مكتوم للمعرفة بإعداد مؤشر للمعرفة أطلق 
عليه مؤشر المعرفة العالمي» والذي يعد أكثر المقاييس ثباتا واستمرارية في الصدور 
منذ عام 2015 حتى الآن. بعنى مؤشر المعرفة العالمي بقياس المعرفة بمختلف أشكالها 
وتجلياتها بهدف دعم جهود تحقيق التنمية المستدامة. وهو عبارة عن خلاصة جهد 
مجموعة من الخبراء والمتخصصين في مختلف المجالات مشل التعليم بمختلف 
مراحله وأنواعه والاقتصاد والبحث والتطوير والابتكار والتكنولوجياوغيرها. 
زد هاا الور غلی سے کی الانات رال ارات م ال 
استقصاءات تستند إلى بيانات موثوقة ومحدثة ومنهجية للمقارنة بين الدول التي 
يشملها المؤشر والتي تمت المقارنة بينها في 7 قطاعات رثيسة هي: 
ت التعليم قبل الجامعي 
0 التعليم التقني والتدريب المهني 
O‏ التعليم العالي 
0 البحث والتطوير والابتكار 
0 تكنولوجيا المعلومات والاتصالات 


0 الاقتصاد 
0 البيئات التمكينية 


(1) World Bank (2006). Knowledge Assessment Methodology. «World Bank Institute.» World 
Bank, Washington, (33 p.). http://siteresources.worldbank.org/KFDLP/Resources/ 
KAM_Paper_WP.pdf 


الفصل الأول 


والمشروع بكافة تفاصيله متاح على منصة المعرفة للجميع Knowledge4all‏ والتي 
ا فر ایا و ا 


http://www.knowledge4all.com/ar/115/Pages 


٠‏ الحكمة: تم تعريف الحكمة على آنها حالة أو صفة تمكن الفرد من إصدار 
الآحكام المقبولة من جانب الآخرين» لأنها عادة ما تتسم بالبصيرة ٤عiكه!‏ 
والحكم العادل. والحكمة هي هبة إلهية غير مرتبطة بكم المعلومات والمعارف 
التي يملكها الفرد ولكنها مرتبطة ببصيرته ومدى صفائها. لذلك وصفها المولى 
عز وجل بآنها وحي وهبة تؤتى منه» كمافي قوله عز وجل في الآيات التي 
وردت فيها الحكمة: 

0 0 5 2 ا ر َة غ ر ه o‏ ت و 2 اي ٢‏ 

[يؤتي الجِكَمَة مَنْ يَسَاءُ وَمَنْ بوت الحكَمَة فقد أوتىّ حيرا كثيرا] ۲۹۹ البقرة»1 
2 ا و A‏ 2 ر ت و تو اة Ea‏ ۶ 
ذلِك مما أوْحَى إِليْكَ رَبك مِنَ الجكمَة] ۳۹ الإسراء [ولقد اتيا لَقَمَان الجكمَة أنِ 
افر للها 1١‏ لقمات لر ددا اة وااء الجكمة رفصل الخطاب ٠]‏ ص. 


من ثم فالحكمة هي قمة هرم المعلومات» وتأتي بعد المعرفة ويتسم أصحابها 
بالقدرة على القيادة وإلهام وتعزيز الدوافع لدى الآخرين. لذافمن آهم عناصر اختيار 
القيادات والمديرين في المؤسسات هو مدى تمتعهم بالحكمة التي تمكنهم من اتخاذ 
القرارت السليمة في المواقف وفي الوقت المناسب. 


ونستكمل فيما يلي مجموعة المفاهيم الأساسية التي يتناولها هذاالكتاب لتحديد 
المفاهيم المقصودة والمعانى المستهدفة لتلك المفاهيم. 


1.2.2 تمثیل المعلومات 


Information Representation 
آيا كان شكل المعلومات» توجد حاجة أساسية لتمثيل تلك المعلومات قبل أن‎ 


تصبح قابلة للاسترجاع. ويقصد بتمثيل المعلومات هناء اشتقاق مجموعة من البيانات 
«(مشل العناوين والكلمات المفتاحية والعبارات.. إلخ) من الوثيقة أو تخصيص 
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مصطلحات هشل الزاصتات ررووس المرضوعات لل جفة سن ت بمكن السرف 
إلى مضمونها وتمييزها وتمثيلها. وعادة مايتم أداء عملية تمثيل المعلومات من خلال 
مزيج من العمليات تشمل: الاستخلاص,» التكشيف» التصنيف» التلخيص والاشتقاق. 

وعلىی الرغم من أن معالجة nllعلgومlت Information Processing‏ llyرة‏ 
المعلو مات formation Managemen)‏ لھما معان مختلفة عن بعضهما بعضا إلا 
أنهما أحياناً ما يتم استخدامهما كمرادفات لتمثيل المعلومات. فبينما تتم الإشارة إلى 
معالجة المعلومات على آنها طريقة التعامل مع المعلومات لآغراض الاسترجاع 50۷ 
information 1s Handeled for Retrieval Purposes‏ تتعامل إدارة المعلومات مع 
مجال واسع من الأنشطة المرتبطة بالمعلومات تتراوح بين اختيار وحفظ المعلومات. 

ويستخدم في هذا الكتاب مصطلح تمثيل المعلومات ليغطي الجوانب والطرق 
المختلفة لإعداد بدائل أو تمثیل |glڈÛlئj Document Surrogate or Representations‏ 
مثل الكشافات والمستخلصات» وذلك لأغراض استرجاع المعلومات. 


1.2.3 الحاجة والطلب والاسترجاع 


يتم النظر إلى مجال طلب المعلومات على آنه مجال موضوعي واسع النطاق 
یغطی كلمن جوانب التمثيل والاسترجاع pig (Sparck Jones & Willett,1997)‏ 
اللإشارة إلى البعدالخاص بالاسترجاع على أنه إتاحة المعلومات Infor 1٣210۸‏ 


کس 
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Acces‏ او طلب المعلومات ع٣ 1nformationn Seki‏ ويمكن النظر إلى هذه 
المصطلحات على آنها مرادفات لمصطلح الاسترجاع. ذلك على الرغم من 
أن كلا منها له توجه ضمني خاص به. فالمصطلح «إتاحة المعلومات» يركز 
على جوانب الحصول على المعلومات» بينمايهتم مصطلح طلب المعلومات 
بالجوانب الخاصة بالمستفيد الذي ينخرط فى نشاط المعلومات» أما الببحث عن 
المعلومات ع٣‏ iطSearc formation‏ فیر کز ا كل مايتعلق بكيف يتم الببحث 
عن المعلومات. علاوة على مجموعة المصطلحات السابقة» ظهرت في السنوات 
الأخيرة مجموعة من المصطلحات التي يتم تداولها واستخدامها بكثافة في 
مجال استرجاع المعلومات تشمل التنقيب عن البيانات Mi«1٣8‏ 034 واكتشاف 
المصادر .Resources Discovery‏ وتجدر اللاشارة إلى أن هذين المصطلحين عادة 
مايستخدمان في مجال الأعمال التجارية وفي بيئة المشابكة» ومن المتوقع أن 
يصبحا من المصطلحات الثابعة التي يتم تداولها بين المتخصصين في مجال 
استرجاع المعلومات في المستقبل. 


ومن المعاني الأخرى التي تستخدم للدلالة على مفهوم استرجاع المعلومات 
مصطلح تخزين المعلومات .1nformati0« Storage‏ والذى يتعامل أساساًمع 
تسجيل وتخزين وحفظ المعلومات. ورغم ذلك» فإن هذاالمفهوم قد أصبح 
تدريجيا ممارسة قديمة لمفهوم حفظ المعلومات» حيث لم يعد تخزين المعلومات 
أمراً مهما نتيجة للتطورات التكنولوجية المتسارعة. وقد تطور هذا المفهوم وأصبح 
يستخدم بصورة أوسع للدلالة على طرق وأساليب خزن وإتاحة المعلومات. 


» 1.2.4 العصر الرقمي ٥ن۸‏ ااiوDi‏ 


عادة ما يتم التفرقة بين المصطلح «رقمي» في مقابل المصطلح «تناظري»» وكلا 
المصطلحين مرتبط باستخدام التكنولوجيا الإلكترونية. وقد قامت شركة تيك تارجت 
»)1ech "get, 2001(‏ وهي إحدى الشركات التي تهتم بتعريف المصطلحات 
التكنولوجية» بتعريف التكنولوجيا الرقمية بآنها: 
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«أحد آنماط التكنولوجيا الإلكترونية التي تقوم بتجميع وتخزين ومعالجة البيانات 
في وضعين أساسيين هما موجب وغير موجب). ويتم تمثيل الموجب بالرقم 1 وغير 
الموجب بالرقم صفر. لذلك فإن البيانات التي يتم نقلها وتداولها في البيئة الرقمية 
يتم التعبير عنها بمجموعة من سلاسل الأصفار والآحاد. أما قبل ظهور التكنولوجيا 
الرقمية» فكان النقل الإلكتروني يقتصر على التكنولوجيا التناظرية والتي تنقل البيانات 
في صورة إشارات إلكترونية بترددات متفاوتة في السعة» والتي يتم تحميلها على 
حامل الموجات ۷1۷٥ ٣۲٣۴۲‏ بترددات محددة. ويعد البث الإذاعى والتلفزيونى 
رة جن ارز الععافم ال اف ارجا العاط ري وهن الحاات 
وشبكة الإنترنت وغيرها من آنماط تكنولوجيا المعلومات دخل الإنسان في العصر 
الرقمي بصورة كبيرة. وقد تم العديد من آنشطة البحث والتطوير المرتبطة بمجال 
استرجاع المعلومات في تلك البيئة الرقمية. 


1.3 مفاهيم مرتبطة بمجال استرجاع المعلومات 


سيتم فيما يلي استعراض مجموعة من المفاهيم الأساسية ذات العلاقة الوثيقة 
بمجال استرجاع المعلومات وتشمل: قواعد البيانات» آليات البحث» اللغة» واجهات 
التعامل. ويعد البشر (بمن فيهم المستفيدون» وأخصائيو المعلومات)» وعمليات 
المعالجة والنظم» ثلاثة مكونات متداخلة تعمل معافي مجال تمثيل واسترجاع 
المعلومات في البيعة الرقمية التي تتأثر بقوة بهذه المكونات الثلاثة. 


1.3.1 تنظيم المعلومات 


هو وضع المعلومات في سياق يمكن من خلاله الوصول إليها عند الحاجة 
في قل وقت وبآقل مجهود. والمقصود بالسياق هنا هو وضع آلية للتنظيم تيسر 
عمليات الإإأتاحة والوصول إلى المعلومات. وعادة مايتم تمثيل المعلومات من 
خلال أدوات تساعد على تيسير تداولها يطلق عليها: مصادر المعلومات / مواد 
المعلومات / أوعية المعلومات / الإنتاج الفكري. وتشير كل هذه المصطلحات 
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إلى: الكتب / الدوريات / المخطوطات / الخرائط / الصور / المصغرات 
الفيلمية / ملفات الكمبيوتر / النوت الموسيقية / الوثائق / الرسائل الجامعية / 
الآشكال والنماذج / مواقع الويب.. إلخ. 


والغخرض الأساسي من تنظيم المعلومات هو تيسير عمليات استرجاعها من 
خلال نظم استرجاع المعلومات والتي تشمل: الببليوغرافيات» الفهارس» 
أدوات الإيجاد» السجلات» المرافق الببليوغرافية» قواعد البيانات» أدلة الويب» 
محركات البحث» ما وراء المحركات» البوابات» أدوات الاكتشاف.. إلخ. 


وتعمل كل أدوات تنظيم واسترجاع المعلومات على تيسير سبل الوصول إلى 
المعلومات لتحقيق الأهداف التالية: 


إيجاد مصادر المعلومات: يساعد على التحقق من أن المعلومات موجودة 
الأعمال التجميعية موجود ومتاح ويمكن الوصول إليه (مثل الحاجة إلى 
مقالة بدورية). 

تجميع المواد معاً بصورة منتظمة يساعد على بناء مستودعات بالوثائق 
المنظمة فى المكتبات والأرشيفات والمتاحف وملفات الإنترنت وغيرهامن 
المستودعات. 

تيسير عمليات الاستشهاد المرجعى: بمصادر المحلومات وفقاً لقواعد محيارية. 
وغيرها. 

تيسير سبل تحديد مواقع وأماكن حفظ المواد التي يوجد بهانسخ يمكن 
الوصول إليها. 
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ومن المعروف أنه توجد خمس طرق أساسية لتنظيم المعلومات وعادة ما يشار 


إليها 
الهرمي: 


.1 


بالمختصرة «LATCH‏ والتی تمثل الموقع» والترتیب الھجائی» الزمنى» الفقات» 


الموقع 10٥3٤0١‏ ويستخدم في تنظيم المعلومات المتعلقة بالطرق والمدن 
والمواقع المهمة مثل الآثار والآبار والحفريات..الخ. 

الترتيب الهجائي Alphabet‏ ويستخدم في القواميس والموسوعات 
والكشافات وقوائم الأسماء وغيرها من المعلومات النصية..الخ. 
الوقت ١"١‏ يستخدم في ترتيب الأحداث التاريخية والجارية مثل المعارض 
والبرامج.. إلخ. 

الفغات Cte80ry‏ ويستخدم هذا النمط من الترتيب في تجميع الفئات 
المتشابهة كما هو الحال في تجميع المواد في فثات المواد بالمراكز التجارية 
والصيدليات ومواقع الويب. وقد يكون الترتيب وفقاً للنوع أو الشكل أو وفقا 
للفغة العمرية. 

الترتيب الهرمي رطء ٣4١ء81٣‏ يستخدم في عمليات التصنيف للمواد حسب 
علاقتها ببعضها بعضا مثل التصنيف البيولوجي وتصنيف الموضوعات» 
رعا مايه ارب البري غا وجو دغلا هة ون انرا يك 
بتم تقسيمهامن العام إلى الخاص. 


1.3.2 استرجاع المعلومات 


يشير مصطلح استرجاع المعلومات إلى آنه عملية بحث مجموعة من بدائل 
الوثائق» ويستخدم مصطلح وثيقة هنا على نطاق واسع لتحديد الوثائق التي تعالج 
موضوع معين. كما يتم الإشارة إليه على آنه أي نظام تم تصميمه لتيسير عملية بحث 
الإنتاج الفكري» ويطلق على هذاالنظام مصطلح «نظام استرجاع المعلومات». 
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وعند تحديد مصطلح استرجاع المعلومات للدلالة على استرجاع الوثائق لابد من 
استبعاد الآنظمة التي لا تتعامل مع النصوص مثل نظم إدارة قواعد البيانات #كةط4ا54 
gy Management Systems‏ نظم الرد على الاستفسارlاٽ Questions Answering‏ 
.Systens‏ هذه النظم عادة ما يطلق عليها أنظمة استرجاع lئlıناٽت Data Retrieval‏ 
Systems‏ أو نظم استرجاع الحقائق .Fact Retrieval Systems‏ ةج هذه الأنظمة 
استرجاع بیانات أو حقائق محددة تعبر عن معلومة محددة» وبعض هذه الأنظمة 
يتخطى مرحلة تقديم إجابات محددة إلى تقديم تحليل دقيق للنتائج في صورة أكثر 
ذكاءًّء حيث تستخلص من البيانات المخزنة نتائج جديدة. 

ومن الواضح أن مصطلح «استرجاع المعلومات» ليس مصطلحاً دقيقاً للدلالة على هذا 
النشاط الذي يتم تطبيقه فيه» حيث إن نظم استرجاع المعلومات لا تسترجع معلومات وإنما 
تسترجع بدائل لمصادر المعلومات. فمصطلح المعلومات يشير إلى شيء غير محسوس 
المعرفية للمتلقي» كما أن عملية الإعلام تتم عندمايحدث تغيير في البنية المعرفية للشخص 
في موضوع معين» من ثم إعطاء المستفيد وثيقة تتناول موضوعا معيناً لا يعني إعلام 
المستفيد بالموضوع» وإنما الإأعلام يحدث عندمايقوم المستفيد بقراءة الوثيقة وفهمها 

وعلى الرغم من أن المصطلح غير دقيق لوصف الموضوع» إلا أنه أكثر 
المصطلحات ملاءمة لآغراض مناقشة الموضوع بدقة» كما آنه المصطلح الذي استقر 
عليه الإنتاج الفكري المتخصص في الموضوع. 


ومن الأنشطة الأساسية التي تقوم بها مؤسسات المعلومات» الإجابة عن 
الاستفسارات» والتي يمكن النظر إليهاعلى أنهامن أنشطة استرجاع المعلومات. 
تسى اط الر دة علي الاسفساراث إلى تر فير إجابات فبا رة عن استقسارات 
المستفيدين ومن أمثلة هذه الاستفسارات: ماهو ارتفاع جبل ما؟ مادرجة حرارة 
ذوبان مادةما؟ ماعنوان.. ؟. 


وتتم الإجابة عن مثل هذه الاستفسارات من خلال البحث في المصادر المرجعية 
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وتوفير إجابات مباشرة عن الاستفسارات بدلاً من إحالة المستفيد إلى وثيقة تجيب 
عن الاستفسار. ويطلق على هذه النوعية المتميزة من الخدمات مصطلح الخدمة 
المرجعية. تعد هذه النوعية من الخدمات المرحلة الثانية في أنشطة استرجاع 
المعلومات» حيث تتضمن المرحلة الآولى استخدام نظم استرجاع المعلومات على 
اختلاف أنواعها مثل فهارس المكتبات» الكشافات» قواعد البيانات» محر كات البحث 
أو حتتى كشاف نهاية الكتاب لتحديد الوثائق التي تجيب عن استفسار معين. ويتم 
في المرحلة الثانية استخلاص الإجابة من الوثائق التي تم تحديدهافي المرحلة 
الأولى. وتجدر الإشارة إلى أنه قدتم تطوير العديد من نظم استرجاع الحقائق 
التي يتم البحث فيها من خلال توجيه استفسارات في صورة تساؤلات باستخدام 
اللغة الطبيعيةء ونظرا للتعقيد الشديد في تصميم مثل هذه النظم فإن معظم النظم 
المتاحة حاليا مقصورة على نوعية معينة من المعارف ذات البنية المحددة مثل نتائج 
الاختبارات وتنسيق الجامعات أو أكواد الطرق السريعة. كماتوجدنوعية أخرى 
من النظم التي تقدم إجابات أو استفسارات تتعلق بالمواد الفيزيائية أو الكيميائية أو 
المعادلات الرياضية.. إلخ. ويطلق على هذه النوعية من النظم نظم استرجاع البيانات» 
كمايمكن أن يشار إلى البيانات في هذه النظم بمصطلح بنوك البيانات» ومن أمثلة 
هذه البنوك: البيانات الإإحصائية» بيانات مواد الطاقة.. إلخ. وقد حظيت هذه النوعية 
من بنول البيانات باهتمام كبير في السنوات الأخيرة في ظل تضخم حجم البيانات 
من ثم ظهرت الحاجة إلى معالجة البيانات الضخمة 044 812 والربط بين البيانات 
الضخمة 044 ع81 4ء )مز إضافة إلى معالجتها بأساليب جديدة تشمل التنقيب عن 
البيانات ع٣‏ iمMi ata‏ والمعالجات الدلالية للبيانات ءsiر1ة .Semantic 2a4 A‏ وقد 
كان لكل هذه التطورات آثر كبير في نظم استرجاع المعلومات التي سعت نحو توفير 
آليات للتعامل مع تلك التطورات. 

وهناك نوع ثالث من نظم استرجاع المعلومات يعتمد على تخزين وبحث 
النصوص الكاملة للوثائق» بحيث بستطيع استرجاع أجزاء من تلك الوثائق التي 
تضاهي استراتجيات البحث المستخدم في التعبير عن احتياجات المستفيدين. ويهذا 
تعد نظم الإإجابة عن الاستفسارات ونظم استرجاع البيانات ونظم استرجاع النصوص» 


الفصل الأول 


أمثلة لنظم استرجاع المعلومات على الرغم من أن الإجابة عن الاستفسارات ونظم 
N yS‏ 
NG ML‏ 
أصبحت نظم استرجاع المعلومات قادرة على استرجاع بدائل الوثائق والببحث في 
اللصوص والرد على استفسارات المستفيدين في نفس الوقت. ولعل أبرز مثال على 
ذلك مايقدمه محرل البحث غوغل الذي يدمج كل فئات البحث في صندوق واحده 
كما يتيح إمكانية الببحث في كل فة على حدة. 


1.3.3 قواعد البيانات 


تعد قواعد البيانات العمود الفقري وأحد المكونات الأساسية لنظم تمثيل واسترجاع 
المعلومات» حيث تشتمل على البيانات والمعلومات التي يتم تمثيلها وتنظيمها وفقاً 
لآليات عمل نظم استرجاع المعلومات التي سنتناولها بالتفصيل في هذا الكتاب. 
فالمفهوم التقليدي لقواعد البيانات التي تعرف بقواعد البيانات الببليوجرافية يشير 
إلى مجموعة من التسجيلات المتطابقة والتي يمكن تحليلها إلى حقول» والتي تعد 
أصغر وأدق المكونات أو الوحدات التي تستخدم في عمليات الدت ل اران 
المعلومات وفرز النتائج. ففي قاعدة بيانات الدوريات» على سبيل المثال» يوجد 
حقل يمثل بيانات التأليف وآخر يمثل عنوان المقالة.. الخ» وتستخدم هذه الحقول 
في عمليات البحث والتصفح والترتيب. 

وتشتمل قواعد البيانات التقليدية على ملفين أساسيين هما الملف التسلسلى 
Seguentia1 File‏ والملف المقلوب ۴1٤۴‏ ۵۵٤۲ء۷٦[.‏ وعد الملف التسلسلي شار 
قاعدة آلبپانات؛ حيف يشتمل غلى معلومات منظة تقس طريقة بني ة الحقول 
والتسجيلات في قاعدة البيانات ويطلق عليه الملف التسلسلي» نظراً لأن التسجيلات 
رما وي تا رفا ل مسل اا اعد انات 


أماالملف المقلوب» والذي يعرف أيضاً بالملف الكشاف عاا؟ ×٠ل«1ء‏ فيتيح 
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الوصول إلى الملف التسلسلي بناء على الصيغ البحثية ومدى تطابقهامع مصطلحات 
اكان امتا في الف لري بان عاي لر فر راع 
المعلومات به حيث اي نقاط الإتاحة Access Point‏ اول ثم المواضع «Locators‏ 
وهو عكس الترتيب الذي توضع فيه المعلومات في الملف التسلسلي حيث تأتي 
المواضع أولا ثم نقاط الإتاحة. 


السا 8 


شكل (1.3) مكونات قاعدة البيانات 
ويتضح من الشكل السابق أن قواعد البيانات تقوم بأربع عمليات أساسية لتجهيز 
الملفات لعمليات البحث والاسترجاع وهي: 
جه الملف التسالسل 
- بناء ملف الكشاف الذي يشتمل على الكلمات القابلة للتكشيف فى كل تسجيلة. 
تطبيق خوارزميات الاسترجاع والتي تتضمن الوزن النسبي للمصطلحات الكشفية. 
ما في النظم غير التقليدية مشل نظم الاسترجاع على الإنترنت» فإن قواعد البيانات 
تظل تشتمل على الملفات (التسلسلي والمقلوب)» إلا أن تركيب الملف التسلسلي 
على سبيل المثال قد يختلف عن تركيبه في النظم التقليدية على الخط المباشر؛ حيث 
إن التركيب في النظم غير التقليدية لا يأخذ شكل حقول وتسجيلات متطابقة في قواعد 


البيانات؛ فهو لا يتضمن حقولاً وإنمايتم عرض المعلومات في شكل نشري» إضافة 
إلى أن المعلومات التي يتضمنها الملف التسلسلي ليست بدائل e‏ ٠ء۲٠5‏ للوثائق 


الفصل الأول 


جدول (1.1) نموذج لمكونات الملفات بقواعد البيانات 


احرى الكلات المشتقة للتكشيف الترتيب الهجائي الوزن النسبي 
التسجیلات الكلات أرقام أرقام التسجيلات الكلات _ ارقام التسجيلات_ الوزن 
الببليو جرافية المفتاحية التسجيلات 
الكاملة 
1 استرجاع 42 5 42 5 استرجاع 2 0.98 
2 المعلومات 3241 24 استرجاع 4 0.70 
3 نظم 52d‏ 32 استرجاع 5 0.85 
4 معرفة 432 2 43 قغیل 1 0.6 
5 ل 24 52d‏ قل 2 0.84 
معلومات 1 0.66 
معلومات 2 0.75 
معلومات 3 0.85 
معرفة 2 0.55 
معرفة 3 0.64 
معرفة 4 0.90 
نظم 1 0.30 
نظم 2 0.67 
نظم 5 0.88 
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أو تسجيلات تلخص الوثائق» ولكنها جزء من محتوى الوثائق الأصلية المتاحة على 
الإإأنترنت» والتي يطلق عليها صفحات الويب. وفي نظم استرجاع المعلومات التقليدية» 
فإن الملفات التسلسلية تشتمل على بدائل للوثائق في صورة تسجيلات ببليوجرافية 
وصفية ومستخلصات أو ملخصات واشتقاقات لكلمات مفتاحية من بعض المواضع 
المهمة مثل العنوان» الملخص. كما أن المحتوى والتغطية اللذين تتضمنهما قاعدة 
البيانات يحددان المواد التي سيتم استرجاعها من النظام لكل عملية بحث. 


1.3.4 اليات البحث 
Search Mechanism‏ 


تتم عمليات البحث في قواعد البيانات من خلال توجيه استفسارات في صورة عبارات 
بحثية إلى محركات وأدوات البحث التي تقوم بدورها بتطبيتق آليات البحث التي توفرها 
المحركات على الاستفسارات وتوجهها إلى قواعد البيانات لاسترجاع المعلومات التي يتم 
تمشيلها وتنظيمها بطرق ثابتة في ملفات قواعد البيانات» كما أوضحنا سابقاً. وتشتمل آليات 
الببحث على إمكانيات متعددة من حيث مستوى التعقيد» والتي يتم تعريفها وتفسيرها وفقاً 
للخوارزمیات ١ص۳‏ طااامعا۸ والإجراءات التي يتضمنها نظام استرجاع المعلومات. ويوجد 
بصفة عامة نموذجان أساسيان للبحث في محركات وأدوات البحث هما: 

الببحث الأساسي Basic search‏ والببحث المتقدم Advanced search‏ وتش 
تقريبا معظم نظم استرجاع المعلومات على إمكانيات البحث البسيط والمتقدم» إلا 
أن إمكانيات البحث المتقدم تحتاج إلى مستفيد على كفاءة ووعي كاملين بإجراءات 
البحث وطرق صياغته؛ حيث إنها تقدم إمكانيات متنوعة ومتعددة في عمليات 
الببحث كتلك التي يتم استخدامها أبضا في الاختبارات المعملية لنظم استرجاع 
المعلومات. وفي السنوات الأخيرة اهتم العديد من نظم استرجاع المعلومات على 
الإنترنت بتطوير إمكانيات وآليات البحث المتقدم» لكي تتيح للمستفيد إمكانيات 
تو جيه استفسارات معقدة لمحركات بحث الإنترنت. 


وتشتمل إجراءات الببحث على العديد من الإمكانيات التي توظفها نظم استرجاع 


الفصل الأول 


المعلومات في تحديد العلاقات بين الكلمات التي تشتمل عليها استفسارات 
المستفيدين منها الكلمات المفتاحية» الببحث البولینی 1٥21ع‌s Boolean‏ الجذع 
..Proximity mر|قۉۆتll Truncation‏ الخ. ويحتاج المستفيد إلى مجموعة متنوعة من 
بكفاءة وفعالية في نظم استرجاع المعلومات. آما النظم الحديثة والمتقدمة التي تشتمل 
على إجراءات بحث معقدة مثل البحث بالوزن Weighted Searching‏ والتى يتم 
تصميمها خصيصا لكي يتعامل معها فئات معينة تحصل على تدريب مكثف وتمتلك 
خبرات بحثية خاصة تلبي احتياجاتهم المعلوماتية والمعرفية المعقدة. وسوف يتم 
مناقشة هذه الآليات بصورة أكثر تفصيلاً فى الفصل الحادي عشر. 


Language ãخغlll‎ 1.3.5 ® 


تعد اللغة الو سيط الأساسى لغل و تيل وعرض الملرمات سرا كانت مقرودة 
أو مكتوبة. وفي هذا السياق تعد اللغة أحد المكونات الأساسية لتمثيل واسترجاع 
المعلومات. ويتم استخدام اللغة في إطار نظم تمثيل واسترجاع المعلومات بطريقتين 
أساسيتين هما: اللغة الطبيعية eعةuعمة‏ a1إناةN‏ واللغة المضبوطة أو المقيدة 
Vocabulary‏ edا0ntro1.‏ فالطريقة التى يستخدمها المستفيدون فى التعبير عن 
احتياجاتهم المعلوماتية في صورة استفسارات بطلق عليها اللغة الطبيعية. أمافي حالة 
استخدام لغة اصüطنliعية Artificial La¬gUage‏ والتي تتضمن مصطلحات» تراكیب 
×4اSyn»‏ ودلالات «Semantics‏ م ضبطها وتقييدها من خلال قوائم مصطلحات 
محددة يطلق عليه ا اللغة المضبوطة أو المقيدة )1996 .(Wellisch & Dowding,‏ 


ويوجد ثلاثة آنواع شائعة من اللغات المضبوطة هي: خطط التصنيف» وقوائم 
رؤوس الموضوعات والمكانز» ولكل منها استخدامه الخاص في نظم تمثيل واسترجاع 
المعلومات. وتتيح اللغة الطبيعية» بصفة عامة» قدرة كبيرة على التحديد والدقة 
والمرونة في تمثيل واسترجاع المعلومات» حيث لا يحتاج المستفيدون إلى التدريب 
عليها أو الممارسة لكي يتمكنوا من تطبيقها في عمليات البحث والاسترجاع» لأنها 
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الوسيلة الأساسية التي يستخدمونها في حياتهم اليومية للتواصل الشفاهي والمكتوب. 
وغل العکسء فان بتاك وصيانة وتحديت اللغة المضبوطة تد امرامكافا كما أن 
المستفيدين منها في حاجة إلى تعلم كيفية استخدامها والتدريب على ممارسة البحث 
واختيار المصطلحات من خلالها. ومع ذلك فإن اللغة المضبوطة تساعد على تقلييص 
المشكلات والصعوبات التي توجد في اللخة الطبيعية مثل التعقيد» والخموض» وعدم 
الدقة في تمثيل واسترجاع المعلومات (r01,1994عءصOrm‏ & eاansdaا).‏ وتجدر 
الإشارة إلى أنه يوجد جدل كبير حول المقارنة بين اللغة الطبيعية في مقابل اللغة 
المضبوطة باسترجاع المعلومات يرجع تاريخه إلى نهايات القرن التاسع عشر» 
ومازال هذا الجدل قائماً حتى الآن. وتساعد اللخة المستخدمة في عملية التمثيل 
والاسترجاع» بدرجة كبيرة» على تحديد مستوى المرونة والحرفية أو التصنع في نظم 
استرجاع المعلومات. وسوف يتم مناقشة قضية اللغخة في تمثيل واسترجاع المعلومات 
بشكل آكثر تفصيلاً في الفصل الخامس من هذا الكتاب. 


Inter 2c٤e واجهة التعامل‎ 1.3.6 


ترى شاو (514۷,1991) أن واجهة التعامل هي الجزء الذي يراه ويلمسه ويستمع إليه 
المستفيد عندمايتعامل مع آي نظام محوسب بصفة عامة» ونظم استرجاع المعلومات 
بصفة خاصة. ويشار إلى واجهات التعامل في إطار نظم تمثيل واسترجاع المعلومات 
بآنها التفاعل الذي يتم بين المستفيد والأنشطة التي يتعامل معها على النظام. كما أن 
هذا المكون يجعل المستفيد عنصراً واضحاً ومتداخلاً مع المكونات الثلاثة الأخرى 
لنظم تمثيل واسترجاع المعلومات (قواعد البيانات» آليات البحثء اللغة). 

تعد واجهة التعامل العنصر الحاسم في الحكم على مدى الصداقة للمستفيد 
ser Friendly‏ . فکما تم تحدیدها بقانون مورز M00۲ 14W‏ ؛ فالنظم الأكثر سهولة 
للمستفيد تجذب عددا أكبر من المستفيدين من النظم المعادية للمستفيد eاناءم٤‏ ما 
وفقاًلمعدلات الاستخدام» ويتم تحديد مدى كفاءة واجهة التعامل من خلال التفاعل 
معها وتقييم المعلومات التي تتضمنها مثل قوائم الاختيارات» أساليب العرض» 


الفصل الأول 


تصميم الشاشات» أنواع الخطوط وغيرها من الأمور المرتبطة بالقابلية للاستخدام 
رانا طهوا. وقد ركزت معظم النظم على استخدام التكنولوجياالمتأقلمة والفعالة 
Adaptive & Effective‏ في تصمیم وتنفيذ واجهات التعامل»› اکر عو کک هاغلي 
الجوانب البشرية لتمثيل واسترجاع المعلومات. من ثم تعد واجهة التعامل العنصر 
المحدد لمدى نجاح أي نظام لتمثيل واسترجاع المعلومات» وخاصة إذا كان النظام 


يعمل في البيشة الرقمية. 

بذلك يمكن القول بصفة عامة إن قاعدة البيانات بما تتضمنه من جداول وكشافات» 
آليات البحث» اللغة» وواجهة التعامل» هى مجموعة العناصر الجوهرية المكونة لأي 
الببحث والاسترجاع. 
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واسترجاع المعلومات 


2 مقدمة 


يستعرض هذا الفصل المشكلة الرئيسة التي تحاول كل آنظمة استرجاع المعلومات 
توفير حلول لهاء سواء كانت هذه الحلول في البيئة الورقية أو الإلكترونية أو الرقمية. 
وتت تل تلك المشكلة فی جائين اساسپين هما: الجانب الرياضي المتعلق بكفاءة 
اقا ,فوته على امرجم كل اران الال رالتاي الع في 
الحكم على الكفاءة وطريقة تطبيقها؛ والجانب اللإجرائي المتعلق بإجراءات التمثيل 
والبحث بقواعد البيانات أو محركات البحث. ثم يستعرض الفصل تمثيل المعلومات 
والتحديات المتعلقة بعمليات التمثيل وآليات التغلب عليها. 


2.1 المشكلة الأساسية لتمثيل واسترجاع المعلومات 


يوجد جانبان أساسيان للمشكلة التي تعالجها نظم تمثيل واسترجاع المعلومات» 
الجانب الأول هو الجانب الرياضي المتعلق بقدرة النظام على تحقيق أعلى معدلات 
للاستدعاء والتحقيق في عمليات الاسترجاع» والجانب الثاني هو الجانب الإجرائي 
المتلعتق بقدرة النظام على أداء المهام بفاعلية وتوفير متطلبات سهولة الاستخدام من 
جانب المستفيدين. وسيتم فيما يلي استعراض كل جانب من هذين الجانبين وتحليله 


بالتفصيل والتعرف إلى أساليب قياسه: 
2.1.1 الجانب الرياضى 


يصف الشكل رقم (2.1) مشكلة استرجاع المعلومات» والتي تسعى كل نظم 
استرجاع المعلومات إلى حلها. ويتضمن الشكل مستطيلين أحدهما كبير والآخر 


الفغصل التاني 


صخير. شير المستطيل الكبير في الكل إلى قاعدة بيانات يتم إعدادهامن 
خلال نظم تمثيل البيانات مثل فهرسة وتكشيف واستخلاص الوثائق التي يتم 
اختيارها وتحليلها في النظام» بينما يمثل المستطيل الصغير استفسار المستفيد 
والنتائج المسترجعة. وتمثل علامة (+) في الشكل الوثائق الصالحة التي يرغب 
المستفيد في استرجاعها من النظام» بينما تمثل علامة (-) الوثائق التي يحكم 
عليها المستفيد من النظام على آنها غير صالحة. وبالطبع فإن مجموعة الوثائق 
غير الصالحة (-) لأي استفسار أكبر بكثير من مجموعة الوثائق الصالحة (+) 
في النظام» بالتالي فإن مشكلة استرجاع المعلومات تتلخص في قدرة النظام 
على استرجاع أكبر عدد ممكن من الوثائق الصالحة في النظام (+) وأقل عدد 
من الوثائق غير الصالحة» وبالطبع فإن الحالة المثالية هي استرجاع كل الوثائق 
الصالحة واستبعاد كل الوثائق غير الصالحة. 


وتعتمد الدقة في الاسترجاع بشكل كبير على مدى الدقة في العمليات» والتي 
تتضمن جزأين رئيسين هما: الجزء الخاص باختيار وتكشيف الوثائق» والجزء الخاص 
بترجمة احتياجات المستفيدين إلى استراتيجيات بحث تتطابق مع المصطلحات 
المستخدمة في التعبير عن المحتوى الموضوعي للوثائق. ويمثل المستطيل الأصغر 
في الشكل رقم (2.1) نتائج الببحث في قواعد البيانات. فيوضح المستطيل أنه تم 


شكل (2.1) نموذج للجانب الرياضي لمشكلة استرجاع المعلومات 


. ال تیر واسترجاع J|‏ 1 مات 


استرجاع 20 وثيقة منها 6 وثائق صالحة (+)» 18 وثيقة غير صالحة (-). بالتالي يكون 
معدل الوثائق الصالحة إلى إجمالي الوثائق ۳ المسترجعة 24/ 6 أي 25./. ویستخدم 
هذاالمؤشر لقياس معدل التحقيق ۸٥‏ ١٥10ءءمءهء۴‏ الذي يشير إلى مدى الدقة في 
استرجاع الوثائق الصالحة ذفقط )1994 , .(Buckland, Fredric‏ 


عدد الوثائق الصالحة المسترجعة 


معدل التحقيق - X‏ 100 
عدد الوثائق المسترجعة 


ویستخدم معدل الاستدعاء عه 11هءء۸R‏ للدلالة على استرجاع کل الوثائق الصالحة 


من قاعدة البيانات» بمعنى آخر معدل الوثائق الصالحة المسترجعة إلى إجمالي 
الوثائق الصالحة في قاعدة البيانات. 


فإذا افترضنا أن قاعدة البيانات تتضمن 100 وثيقة صالحة تم استرجاع 6 منهاء 
يكون معدل الاستدعاء فى هذه الحالة (6 / 100) 100 × أي نحو ./6. ويمكن تحسين 
ا ن ا تر اق الح کے ا اما ادات 
أكثر شيوعاً أو تردداً في الوثائق» ولكن على الجانب الآخر سوف ينخفض معدل 
البق عد ا قاع ندل ت تاها ردك اة عد الراتن الحب ر جت ما 
يزيد احتمال ارتفاع عدد الوثائق غير الصالحة. 


بالتالي» يتضح أن من أهم عناصر كفاءة نظم استرجاع المعلومات العمل على 


عدد الوثائق الصالحة المسترجعة 


معدل الاستدعاء = س 100 


إجمالي عدد الوثائق الصالحة في النظام 
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التحسين فى معدلات الاستدعاء التي تؤدي بالتبعية إلى انخفاض معدلات التحقيق 
والعكکس د بمعنى أن ارتفاع ات التحقيق يؤدي إلى انخفاض معدلات 
الاستدعاء. من ثم فإن العلاقة بين الاستدعاء والتحقيق هي علاقة عكسية حتمية كما 
هو موضح في الشكل (2.2). 

ويتضح من الشكل (2.2) أنه توجد علاقة عكسية بين الاستدعاء والتحقيق. وتشير 
تلك العلاقة إلى أن زيادة معدلات الاستدعاء تعني زيادة عددالوثائق المسترجعة 
وارتفاع احتمالات ظهور وثائق غير صالحة نتيجة لتوسيع نطاق البحث. وعلى 
الجانب الآخرء فإن تحقيق أعلى معدلات الدقة يتطلب صياغات معقدة لعبارات 
الببحث وتضييق نطاق البحث إلى أقصى درجة ممكنة» ما تقل معه فرص استرجاع 
عدد كبير من الوثائق» حيث إن الهدف من التحقيق هو الوصول إلى أعلى معدلات 
الصلاحية في الوثائق المسترجعة. 
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شكل (2.2) العلاقة العكسية بين الاستدعاء والتحقيق )1994 , (Buckland, Fredric‏ 
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إذا افترضنا أن مستفيداً ييبحث عن سيارات الدفع الرباعي من فئة تويوتا. وبفحص 

نظام استرجاع المعلومات تم التوصل لمايلي: 

- 50 وثيقة في موضوع السيارات 

- 20 وثيقة في موضوع الدفع الرباعي 

- 100 وثيقة في الموضوع تويوتا (على افتراض أن المصطلح تويوتا قديمثل 
اسم شخص»› مودیل سيارة» اسم مصنع»› أو شركة.. الخ). 

أقصى لهذا الاستفسار. فإذا فحص المستفيد النتائج» ووجد أن هناك 5 وثائق غير 

صالحة» وعلى افتراض أن النظام يحتوي على 50 وثيقة صالحة. 

بالتالى يكون معدل الاستدعاء = (50/15) * 100 = 30./ 

ومعدل التحقيق = (20/15) # 100= 75./ 

ويلاحظ من هذه النتيجة ارتفاع معدل التحقيق وانخفاض معدل الاستدعاء. 

فإذا افترضتا أن المستفيد أراد الحصول على عدد أكبر من الوثائق» فأضاف 


مصطلح الدفع الكلي إلى مصطلح الدفع الرباعي» وربط بينهما بالمعامل 0۸ لتصبح 
عبارة البحث كالتالي: 


سيارات ۸۸2 (الدفع الرباعي 0۸ الدفع الكلي) ۸۸2 تويوتا 
وقد أصبح عدد النتائج المسترجعة وفقاً لهذه الاستراتيجية كالتالي: 
سيارات = 50 وثيقة 


الدفع الرباعي 0۸ الدفع الكلي = 35 وثيقة 


تويوتا = 100 وثيقة 
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مايعني أنه يوجد 15 وثيقة مكشفة تحت مصطلح الدفع الكلي» ون خمس وثائق 
من هذه المجموعة ورد فيها مصطلحا سيارات وتويوتاء بالتالي تكون نتيجة العبارة 
البحثية كالتالي: 


5 س ا خد اتی د آل يط ي ال طحا تاوف ا لار 
البحثية السابقة. وإذا افترضنا أن عدد الوثائق الصالحة بالنظام كله بعد إضافة المعامل 
الجديدارتفع من 50 وثيقة إلى 55 وثيقة. وعند تقييم المستفيد للنتائج المسترجعة 

بالتالى يكون معدل الاستدعاء والتحقيق هو كالتالى: 

الاستدعاء = (55/18) * 100 = 32.7./ 

التحقيق = (18 / 25) * 100 = 72./ 


واا ر معاد ن مدل الا ست عاء زا د ش2 ریا که افا ف مدل 
اقيق هة 5 قرا ما و كد العا الك الح ين الها التي 
والتي تأتي كنتيجة منطقية لطبيعة العلاقة» حيث إن ارتفاع الاستدعاء يتطلب توسيع 
نطاق البحث فى حين التحقيق يتطلب تضييق نطاق البحث لتحقيق أعلى معدلات الدقة 
في النتائج 0 وتجدر الإشارة إلى أن العلاقة العكسية في الزيادة والنقصان 
تحدث بشكل نسبي» ولا تسير في اتجاه الزيادة والنقصان المطلق فقط» بمعنى أن الزيادة 
في الاستدعاء قد تتبعها زيادة في التحقيق ولكن بمعدل قل في أي منهما. 


كما يتضح من الشكل (2.1) أيضاً ظاهرة أخرى من ظواهر نظم تمثيل واسترجاع 
المعلومات تتمثل في آنه من الممكن توسيع نطاق البحث لاسترجاع كل الوثائق 
الصالحة (بمعنى تحقيق 100./ استدعاء)» ولكن ذلك سوف يجعل معدل التحقيق 
منخفضاً جداًء هذا إضافة إلى أنه كلما كبر حجم قاعدة البيانات» انخفض معها معدل 
التحقيق المحتمل في مثل هذه الحالات. فالمستفيد قد يرغب في فحص مستخلصات 
5 وثيقة لكي يصل إلى 5 وثائق صالحة» بينما قد لايرغب في فحص 100 وثيقة 
لكي يحصل على 25 وثيقة صالحة» لأن هذا يتطلب جهدا أكبر ووقتاً أطول. بالتالي 


. ال تیر واسترجاع J|‏ 1 مات 


فإنه مع زيادة حجم قاعدة البيانات قد يكون من الصعب تحقيق مستوى مقبول من 
الاستدعاء في مقابل مستوى مقبول من التحقيق. وتوجد العديد من الدراسات التي 
ركزت على هذه النقطة الجدلية ومازالت هذه النقطة محل خلاف بين الباحثين فى 
مجال استرجاع المعلومات. 


ويستخدم لانكستر مصطلح الاستدعاء للدلالة على استرجاع الوثائق الصالحة, أو 
كل ر ةة ادل على تجن الر تائ غير المالعة کار جد قایس ارف 
لقياس أداء الببحث في قواعد البيانات. (انظر على سبيل المثال روبرتسون وجونز 
Robertson & Jones, 6‏ ). بعض هذه المقايیس رياضي بحت» إلا أن الاستدعاء 
والتحقيق هما أكثر المقاييس استخداماً وتطبيقاً في الأنظمة والدراسات» لمالهمامن 
قدرة على توضيح الصورة العامة لكفاءة نظم تمثيل واسترجاع المعلومات. كمايبدو 
أنهما مازالا أكثر المقاييس وضوحا للتعبير عن نتائج البحث» حيث إنهما يقسمان 
e þ‏ مس چ روا ر س ج او 
ت فا وو غ ا 


0 


إلى استخدام معامل تطبيع البيانات» والذي يعرف بالمعامل ۴ وهو عبارة عن مؤشر 
لمقياسي الاستدعاء والتحقيق ويتم قياسه وفقاً للمعادلة التالية (1992 ,س؟): 


التحقيق × الاستدعاء SS‏ 


التحقيق + الاستدعاء 


الاستدعاء 
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2.1.2 الجانب الإجرائي 


تحاول كل نظم تمثيل واسترجاع المعلومات حل المشكلة الإجرائية المتعلقة بآلية 
عمل نظام تمثيل واسترجاع المعلومات والذي يحاول الإجابة عن السؤال التالي: 

كيف يمكن الحصول على المعلومات الصحيحة للمستفيد المناسب في الوقت 
الملائم» على الرغم من وجود متغيرات أخرى كثيرة (مشل سمات المستفيدين)» 
تغطية قاعدة البيانات في بيئة نظم تمثيل واسترجاع المعلومات اختلاف أساليب 
البحث والاسترجاع وخوارزمیات معالجة المعلومات.. إلخ. 


ويشتمل الشكل (2.3) على نموذج مبسط للمشكلة التي تعالجهانظم استرجاع 
اللات م اناالا 


المدخلات ۴ e‏ 
5 اختيار الوثائق مجتمع أوعية المعلومات 
اعنرت 
الترجمة 
Indexing‏ 
قاعدة بيانات بدائل الوثائق EEE‏ مخزن الوثائق 
۲ 
استراتیجیات 1 أ 
1 
الترجمة ا 
1 
إعداد 1 
استر اتیجیات 1 
1 
1 
1 
۷ 
المخرجات مجتمع المستفيدين 


شكل (2.3) العلاقة العكسية بين الاستدعاء والتحقيق )1994 , (Buckland, Fredric‏ 
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فالمشكلة الأساسية التي تعالجها معظم نظم استرجاع المعلومات هي مضاهاة 
احتياجات المستفيدين ببدائل الوثائق المخزنة في قواعد البيانات بنظم استرجاع 
المعلومات. وتشتمل تلك البدائل على تبسيط للرسائل التي يسعى المؤلفون إلى 
توصيلها إلى مجتمع المستفيدين والتي تظهر في النصوص أو الوسائط غير النصية 
التي يقومون بتأليفها في الوقت الذي يتم فيه التعبير عن احتياجات المستفيدين في 
صورة طلبات يتم توجيهها إلى خدمات المعلومات. 


وتقوم نظم استرجاع المعلومات بالتعامل مع إعداد بدائل للنصوص (التي يمكن 
أن تتراوح بين النص الكامل للوثيقة في شكل إلكتروني أو أجزاء من ذلك النص إلى 
تسجيلة ببليو جرافية بسيطة تمثل الوثيقة) ويتم تخزينها في قاعدة بيانات يمكن البحث 
فيها من خلال إحدى أدوات البحث والاسترجاع. ويمكن تخزين قاعدة البيانات في 
صورة وثائقية أو إلكترونية» ولكنها غالباً ما تتاح عبر شبكة الإنترنت حالياً. أما الأداة 
التي تستخدم في بحث تلك النظم فيمكن أن تتراوح ما بين النظم التقليدية مشل 
الفهارس البطاقية أو الكشافات المطبوعة» ولكنها في معظم الأحوال حالياتتاح من 
خلال مخركات وآدوات البحث المتاحة من خلال شبكة الإنترنت والاجهزة الذكبة. 


ويتم تجهيز بدائل لطلبات المستفيدين (والتي يتم تمثيلها في شكل مصطلحات 
يتم الربط بينها من خلال مجموعة من الروابط المنطقية أو تعبيرات نصية أو كيانات)» 
فعلى سبيل المثال تسمح بعض النظم للباحث بإدخال تفاصيل عن أحد الكيانات 
المعروفة بآنها صالحة للبحث عن مواد مشابهة لهذا الكيان. ويتم استرجاع بدائل 
النصوص التي تضاهي بديل الطلب. 


ومن هم المشكلات التي تواجهها مشل هذه النظم أن الرسالة التي يريد المؤلف 
توصيلها لم يتم التعبير عنها بشكل جيد في النص الذي يعتمد عليه في إعداد بديل 
الوثيقة» وفي المقابل يمكن أن تكون استراتيجية البحث التي تعبر عن طلب المستفيد 
Ste ENS‏ لأ اهي اعاجات الد 


بذلك يمكن القول إن مشكلة استرجاع المعلومات يمكن التعبير عنها بآنها محاولة 
مضاهاة بدائل احتياجات المستفيدين ببدائل رسائل المؤلفين التي يتم التعبير عنها 
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في نصوص الوثائق. وترى باتس (1996 
تبدو أكثر تعقيدا مما هي عليه» حيث أشارت إلى أنها مشكلة لا تق تقتصر على جانب 
واحد في التعامل مع النظم» فهي تشمل جانبي المدخلات والمخرجات. ولصعوبة 
التعامل مع جانب المدخلات ركزت معظم الدراسات بشكل أساسي على جانب 
المخرجات في أنشطة استرجاع المعلومات المتمثشل في احتياجات المستفيدين 
ويداتل الطلبات» واستراتبجيات البجث أكثر من ت ر كبزها على المدخلات المعغاة 
فى رسائل المؤلفين وبدائل النصوص.» وذلك على افتراض أن جانب المدخلات 
اتر تبان جانب الات 

وقد أشار بيلكن (1980 ,«)اء8) إلى مشكلة استرجاع المعلومات على أنها 
محاولة مضاهاة بين حالة معرفية مجهولة لصاحب الطلب بحالة معرفية أكثر تماسكا 
وتحديدا والمتمثلة في نص المؤلف. ويتمشل دور المكشف في محاولة التنبؤ بأنواع 
الطلبات التي يمكن أن ترد لطلب وثيقة معينة» والتي تعد في هذه الحالة استجابة 
جيدة للطلب» مايحقق رضا المستفيد. ويمكن إنجازها من خلال دور المكشف 
الذي يحاول تحديد أنواع الوثائق التي تلبي احتياجات مستفيد بعينه في وقت معين. 


كمايتضح في الشكل (2.3) أنه يمكن استخدام الخوارزميات في بعض أنشطة 
استرجاع المعلومات كبديل للتحليل المفاهيمي أو المعالجة البشرية للوثائق. ويتم 
استخدام ذلك في نظم التكشيف والاستخلاص الآلية وغيرها من العمليات التي 
تشتمل على معالجات لفات معينة من الوثائق والمصطلحات مثل بناء استراتيجيات 
الببحث وإعداد شبكات الربط نین المصطلحات» كماهو الحال في المكانز 
والأنطولوجيات (أدوات معالجة المصطلحات). فكماهو واضح من الشكل يمكن 
للحاسبات أن تستخدم لمساعدة المكشفين - كما هو الحال في معظم قواعد البيانات 
ومحركات البحث المتاحة عبر الشبكة العنكبوتية» كبديل للمكشفين وذلك في كل 
أنشطة ومكونات نظم استرجاع المعلومات. 


وقبل البدء في مناقشة آليات تمثيل واسترجاع المعلومات بالتفصيل» لابدمن 
التعرض لعملية تمثيل واسترجاع المعلومات للتعرف إليها بدقة. 
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2.2 عملية تمثيل واسترجاع المعلومات 

المستفيد بإجراء الببحث واستقبال النتائج المسترجعة» لذلك فإن آي معلومات يتم 
استرجاعها من قاعدة البيانات يلعب أخصائي المعلومات دوراً محورياً في تنظيمها 
وفقاً للغة المستخدمة بالنظام. وكثيراً ما تظهر بعض التناقضات أثناء عملية تمثيل 
واسترجاع المعلومات» والتي من الممكن أن تؤدي إلى مشكلات كبيرة إذا كانت 
اللغة المقيدة هي اللغة المستخدمة ويرجع ذلك للأسباب التالية: 


أولا: الاختزال: لأن المعلومات التي يتم تسجيلها في صورة مقالات» دوريات أو 
تقارير فنية أو أعمال مؤتمرات يتم تمثيلها في صورة ملخصة باستخدام مصطلحات 
التكشيف [ndexing terns‏ وما یشبھھاء من ثم فاسترجاع المعلومات الأصلية يبدو 
من الصعب تحقيقه. فالعملية تشبه هنا تمثيل وثيقة كبيرة بها آلاف الكلمات بعدد 
محدود من الكلمات» من ثم يكون هذا التمثيل اختزالا للبعد الخاص بالجحم. 

ثانياً: المضاهاة الجزئية: تعد أي لغة مضبوطة جزءاً من اللغة الطبيعية التي تم كتابة 
الوثيقة الأصلية بهاء لذلك من الصعب أن تحدث مضاهاة كاملة بين كلمة في وثيقة 
وأخرى مشتقة من مكنز مصطلحات (لغة مضبوطة) لأغراض التمثيل. فمن الممكن 
آن يكون المكشف قد قام باختيار مصطلح مرتبط أو مصطلح أضيق أو آوسع للدلالة 
على المفهوم الذي يرغب في التعبير عنه من الوثيقة» وهو مايجعله غير مطابق كليا 
للمصطلح الوارد في الوثيقة. 

ثالغاً: عدم الأطراد ر«هاءاو«هء«ة: من التحديات التي يصعب تحقيقها في 
عمليات التمثيل هو الثبات في تمثيل المعلومات (بمافي ذلك عملية تحليل 
المفاهيم)» والذي ر ی ا ری ص را ااال 
وقد أشار (كلفردون 1984,١٠۵ء٠۷ء1٣)‏ إلى أن أكثر المكشفين خبرة يتفقون فقط في 
حدود 30./ فقط في المصطلحات المستخدمة في التكشيف إذا قاموا بتكشيف نفس 
الوثيقة» بمعنى أن الاطراد بينهم لا يتجاوز 30./. وفي السياق نفسه وجد (ميتشل 
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3,مMit)‏ أن معدلات الاتفاق بين مصطلحات التكشيف باستخدام قائمة 
رووس الموضوعات الطبية" 1۴58 في بناء قاعدة بيانات #«ذاله لم يتجاوز 
نسبة 49./ من المصطلحات المستخدمة في تكشيف الوثائق الطبية. وهو نفس ما 
توصل إليه محمد (1999) فيما يتعلق بتكشيف الدوريات العربية بقواعد البيانات 
الوطنية المصرية» حيث توصل إلى أن نسبة الاطراد لا تتجاوز 40./ فى مصطلحات 
التكشيف» على الرغم من التوافق حول الأدوات والسياسات المستخدمة» إلا أن عدم 
الاطراد يأتى من اختلافات بين المكشفين فى عمليات التحليل المفاهيمى والترجمة. 


وعلى الجانب الآخر» يحتاج المستفيدون إلى تحويل احتياجاتهم المعلوماتية 
إل استفسارات باستخدام لخات نظم تمثيل واسترجاع المعلومات» بحيث يمكن 
استخدام هذه الاستفسارات في إجراء البحث بقواعد البيانات باستخدام آليات 
الببحث المتاحة. وقد أشار الباحثون منذ القدم إلى مدى تعقد تلك العملية» فقد 
أوضح بلير ومارون 1985 ٧13٣0,‏ & ۲نه81)) أنه من الصعب أن يستطيع المستفيد 
التنبو بالكلمات المطابقة تمم Exact Words‏ أو مزیج الکلٹlanٽ Word Combination‏ 
للمصطلحات التي تستخدم تمثيلاً في كل أو معظم الوثائق الصالحة (0.295). وإضافة 
إلى ذلك» فإن استخدام المصطلحات المضبوطة وإمكانيات البحث (مثل البحث 
البوليني) سوف يزيد من تلك الصعوبة. وعادة مايتم استخدام اللغة الطبيعية في 
البحث بالاعتماد على العبارات والجمل الكاملة التي يتم استخدامها في التواصل 
في حياتنا اليومية دون أي إجراءات لبناء الاستفسارات (على سبيل المثال لماذا 
لون السماء أزرق) أصبح أمرأً من الممكن البحث عنه على الإنترنت بنفس الطريقة 
التي يصيغ بها المستفيد استفساره؛ إلا أن الطريق مازال طويلا أمام الباحثين في هذا 
المجال» لتوفير آليات لمعالجة اللغة الطبيعية التي تعد أحد أقسام الذكاء الاصطناعي 
)A tifa Intelligence (AI‏ لإحداث التطوير المنشود في عمليات البحث بالأسئلة 
المباشرة. وبمعنى آخر» يعتمد نجاح البحث بصفة أساسية على المضاهاة التي تتم 
بين تمثيل المعلومات بالنظام والاستفسار الذي يتم توجيهه من خلال المستفيد 


.MESH: Medical Subject Headings (1) 
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إلى النظام. أي أن عملية البحث تنجح عندما يبحدث التطابق بين استفسار المستفيد 
والمعلومات التي يتم تمثيلها بقاعدة البيانات التي يتم البحث فيهاء وفي حالة عدم 
التطابق لن يستطيع النظام استرجاع النتائج الصالحة. 

لذلك» فإن المضاهاة هي الآلية الأساسية بنظم تمثيل واسترجاع المعلومات 
وكماهو موضح في الشكل (2.3). مع ملاحظة أنه توجد عدة أنشطة بعملية تمثيل 
واسترجاع المعلومات يمكن أن تؤدي إلى التناقض في المضاهاة. فالهدف النهائي 
لجودة نظم تمثيل واسترجاع المعلومات هو استخدام كل الطرق والتقنيات الممكنة 
لتقليل أو حتى القضاء على كل التناقضات التي تظهر آثناء عملية التمثيل والاسترجاع. 


2.3 تحديات التمثيل واسترجاع المعلومات 


على الرغم من الكمٌ الكبير من الدراسات والبحوث التي يتم إجراؤها في مجال نظم 
تمثيل واسترجاع المعلومات؛ فإنه يوجد مجموعة من التحديات التي فيما يبدوا نها من 
الصعب التغلب عليها. فقد قام سوانسون )8۷480١,1998(‏ بعرض أفكاره عن التكشيف 
والاستر جاع ااي Automatic [ndexing & Retrieval‏ قام باستخدام مصطلح سکه 
تايلور ويتكار Whi) e۲‏ orاayا‏ المعروف بمسلnات‏ lلaجj Postulate of Impotence‏ 
وحدد 9 مسلمات عجز لا تستطيع نظم تمثيل واسترجاع المعلومات التغلب عليها. على 
الرغم أن ذلك كان في عام 1988 والذي يشير إلى بدايات عصر الميكنة» إلا أن بعض هذه 
الصعوبات والتحديات التي وردت في المسلمات التسع لايزال قائماونذكر منهاعلى 
سبیل المثال المسلمات 1 3 4» 9. وهذه المسلمات التسع هي: 


1. «لايمكن التعبير عن الحاجة إلى المعلومات بصورة كاملة في صورة طلب 
بحث؛ حيث لا يمكن صياغة السؤال بصورة دقيقة وبشكل مستقل عن 
الافشراضات المنة الى تكر ن في دعن المسشيد والس لا حص ر لهات 
كما آنه من المستحيل وصف السياق المعرفي للمستفيد بصورة كاملة» لأنه 
يشمل» ضمن آمور آخرى» الخلفية المعرفية الخاصة بالمستفيد والطلب». 
ويرجع ذلك إلى أن هذه الاحتياجات تنبع أساسأ من حالة عدم يقين أو عدم 
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المعرفة والغموض والالتباس» ومن ثم لايمكن لتلك الحالة الخامضة أن 
ينتج عنها سؤال دقيق أو طلب استفسار سليم 100./. وتجدر الإشارة إلى 
ننا قمنا بدراسة للتغلب على هذا التحدي من خلال ابتكار نموذج تفاعلي 
لسد الفجوة في حالة عدم اليقين وتحويلها إلى حالة تفاعل تمكن الباحث 
من الوصول إلى اليقين (انظر محمد 2013). 


هي افتراضات واختزالات أو تخمينات لحالة معرفية؛ بالتالي لا توجد قوانين 
حاكمة لهذاالأمر». 


«لا يمكن اعتبار الوثيقة صالحة لطلب معلومات بشكل مستقل عن جميع 
الئاق | لا ری التي يجب أن يأخذها المستفيد في الاعتبار. فالصلاحية 
ليست حكماًثابتاء إنماهي عبارةعن أحكام تختلف من سياق لخر 
ومن مستفيد لآخر» ويجب أن تراعى الإطار المعرفى المتغير ع1 Sif)‏ 
.«Knowledge Framework‏ 


«(من المستحيل أن تؤكد أو تنفي أن كل الوثائق الصالحة لاستفسار معين تم 
الوصول إليها ضمن قائمة النتائج المسترجعة» كما آنه لايمكن أبدأ لأي 
مستفيد في الممارسة العملية أو من حيث المبدأ فحص جميع الوثائق سواء 
المسترجعة أو الصالحة بالنظام». 


«لا يمكن للأجهزة» حتى الآن» آن تتعرف إلى المعنى» بالتالي لايمكن أن 
O GER AES‏ 
لذلك: أن بعض المکشفین طرال الوقت» وجمیع لمشفين في مضل 
عمليات التكشيف والتصنيف أثناء إجراء اس الصلاحية». وهو مادفع 
الان الى اتکار اسابب التوسيم الاجتماعى .Social agg1¬g‏ 
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6. «(معدل تردد المصطلحات Word-occu re۸٥۴‏ لا یمکن أن يمثل المعنى أو 
حتى يكون بديلاله» ومع ذلك فإن هذه البيانات يمكن أن تستخدم لتحقيق 
نجاح عرضي في عملية البحث» في الإشارة إلى أو لتحديد المناطق المهمة 
في النص التي يمكن للمستفيد أن يستخدمها في الببحث عن المعنى أو 
الحكم على الصلاحية». 

1 «لايمكن تقييم قدرة نظام استرجاع المعلومات على دعم عملية تكرارية من 
خلال أحكام الصلاحية المفردة التي يجريها المستفيد مرة واحدة لعمليات 
متکر رة human relevance judgment‏ iteration-eاعinء.‏ فالعملیات المتکررة 
تحتاج إلى معايير جديدة للحكم مثل قدرة النظام على تحفيز المراجعة 
الإبداعية للسؤال أو الاستفسار أثناء تفاعل المستفيد مع النظام». 

8. «لايمكن للنظام أن يبجمع بين أحكام الصلاحية البشرية والآليةء فالنظام إما 
أن بستخدم أحكام صلاحية بشرية دقيقة أو إجراءات ميكانيكية فعالة للغاية» 
ا س اا 

9. «باختصار تشير المسلمات الثماني الأولى إلى أن تحقيق الفعالية والكفاءة 
الكاملة باطراد من خلال إجراءات التكشيف والاسترجاع الآلي أمر غير 
ممكن من الناحية العملية). 

فالمشكلة المفlاهيمية Conceptual Problem‏ لاسترجاع المعلومات كماوصفها 

ساونسون (1998 ,50« )S۷‏ هي من أكترالاأموزأهمية في فهم وتطوير مجال 
استرجاع المعلومات. فالفحص الدقيق لعملية تمثيل واسترجاع المعلومات يوضح 
أن هذا المجال يتضمن» كما أوضحنا مسبقاء مضاهاة للمصطلحات وليس بحثا 
عن المفاهيم في البيئة الرقمية. فعندما يكون المصطلح البحثي المواصلات العامة 
Transpotation‏ icاPub‏ على سبیل المثال لا یمکن استرجاع الوثائق التي تتناول 
موضوعات الطرق» الأتوبيسات ومترو الأنفاق؛ إلا إذا كان هناك علاقات تربط بين 
تلك المصطلحات فى قاعدة بيانات من خلال قائمة المصطلحات المضبوطة أو 
أدرات الرنط اللالي, سن كم فاشك ال شاهي ية لاسترجاع المعلرمات رالئى بطلق 
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علیها مشکلات المعنی 2111ع گه sصعاطهام‏ لاتقل عمقاّفی جوهرهاعن غيرها 
من اکال السلرك الذکي gag «Intelligent behavior (p.96)‏ ا الذي ركزت 
عليه دراسة بناء المفاهيم وإشكالية دلائل المصطلحات التي قام بهامؤلف هذا 
الكتاب لوضع آلية لتفاعل المستفيدين مع النظام تمكن من التغلب على المشكلة 
الغا فة عة هاا مارات ية 03 6: 


من ثم يمكن القول بإيجازء إن مشكلة استرجاع المعلومات التي تم اختزالها في 
عملية مضاهاة مص طلحات ومدی مطابقة الكلمات البحثية اللہ طلحات الكشفية.» هى 
أعمق بكثير من مجرد عملية مضاهاة سطحية إلى مضاهاة في الدلالات والمعاني 


ونختتم هذا الفصل بسؤال مهم: هل يمكن أن ينتقل استرجاع المعلومات في 
يوم مامن مجرد أداة لمضاهاة المصطلحات إلى ابتكار آليات للبحث عن المفاهيم؟ 
الإجابة عن هذا السؤال تم اختبارها ومحاولة الرد عليهابقوة من خلال التجربة 
والخطاً (1998,١0ء«8«a).‏ ويمكن الوصول إلى إجابة كاملة عنها فى كتاب الويب 
الدلالي ( محمد وآخرون» 2018). 
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الفصل الثالث 


تمتيل المعرفة: 
قضايا أساسية 


4 مقدمة 


تتنوع شكال الوثائق وأنواع مصادر المعرفة التي تعد الناقل الأساسي للمعلومات» 
حيث تحمل المعلومات التي يتم إنتاجها لأغراض تداول المعرفة منها أعمال 
المؤتمرات» مقالات الدوريات, التقارير الفنية.. إلخ. وتحتاج هذه الوثائق إلى أن 
يتم تمثيلها قبل إتاحتها للبحث والاسترجاع» فلا يمكن استرجاع المعلومات التي 
تقضمتهاالوثاتق ق بالاعتماد عايها فقط؛ حيث يحتاج نشاط استرجاع الوثائق لے دال 
لتلك الوثائق والتي عادة ما تأخذ أشكالاً متنوعة مثل الكشافات» المستخلصات 
والملخصات» وغيرها. ويتم التعبير عن تمثيل الوثائق في هذا الكتاب للإشارة إلى 
جوهر الوثيقة أو المحتوى الموضوعي باستخدام آلية معينة بمصطلح تمثيل المعرفة» 
على الرغم من أن عملية التمثيل تركز على مخرجات المعرفة التي يتم نشرها في 
صورة وثائق وأوعية معلومات متنوعة. وقد تم استخدام مصطلح تمثيل المعرفة في 
هذا الكتاب للدلالة على تمثيل الوثائق التي تعد مخرجات المعرفة الحقيقية والتي 
تشكل الذاكرة الخارجية للإنسان في مقابل الذاكرة الداخلية» كماتشير إلى كل 
العمليات الفنية التي تتم على أوعية المعلومات ومنها التكشيف (الهجرسي» 1991). 

وتجدر الإشارة إلى أن المنتج النهائي من الممكن أن يأخذ أشكالاً متنوعة» فمن 
الناحية النموذجية يجب أن تتم عملية تمثيل الوثائق بسهولة وفعالية من خلال إجراءات 
التمثيل التي سنتناولها بالتفصيل. وقد أشار ليسك (1997 ,یم 100 - ۴99,) إلى ما 
يلي: إذا كان من الممكن تمثيل المعرفة بطريقة واحدة يمكن من خلالها تنظيم الأفكار 
في مواضع ثابتة» وإذا كان المستفيد على دراية بتلك الطريقة ويمكنه توجيه الاستفسارات 
بطريقة تتماشى مع تلك الآلية؛ فإن عملية الاسترجاع الموضوعي سوف تعمل بات 
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واطراد» لكن من الناحية العملية من المستحيل أن يتم استخدام طريقة واحدة لتمثيل 
المعرفة تخدم كافة الأغراض؛ علاوة على ذلك فإن تطبيق عملية التمثيل باطراد ودقة 
مازال يواجه العديد من التحديات من وجهة نظر أخصائي المعلومات» حتى لو كان 
اختيار طريقة التمثيل لايمشل تحدياً فإن بعض طرق التمثيل مثل المستخلصات 
لا تستخدم طريقة واحدة ثابتة في التمثيل. لذلك فإن تمثيل مخرجات المعرفة في 
جوهره يحمل كثيراً من التحديات والتعقيدات» وسنتناول فيما يلي الآليات المختلفة 
المستخدمة في تمثيل مخرجات المعرفة في صورة بدائل لتلك المخرجات. 


3 طرق التمثيل 

توجد أساليب متنوعة لتمثيل المعلومات تشمل كل الآليات التي تستخدم في بناء 
مؤشرات أو بدائل للوثائق. ويستعرض الجزء التالي الأساليب المتنوعة للتمثيل والتي 
تشمل التكشيف» التصنيف أو التقسيم إل فقات› التوسيم الاجتماعي» التلخيص» 
الملخص الوافي للموقع. 


€ 3.1 التکشیف وہ!ا×xء‏ لہا 


يعد التكشيف أحد أنماط تمثيل مخرجات المعرفة التي تم استخدامها على 
نطاق واسع من جانب الأخصائيين عبر العصور, ويعتمد التكشيف على استخدام 
مصطلحات ا ا بالاشتقاق أو بالتعيين للتعبير عن 
الأوجه المهمة للوثيقة | 

O 
على الوصول إلى التفاصيل الدقيقة للوثائق. وبتجريد المصطلحين تكشيف وكشاف‎ 
نجد آنهما مشتقان من أصل لغوي واحد وهو «كشف» وتشير القواميس اللغوية إلى‎ 
أن (كشَفَ الشيء) يعني أزال الغطاء عنه أو رفع عنه مايواريه. وقد دخلت كلمة‎ 
1١ - الكشاف اللغة الإنجليزية في العصور الوسطى وتتكون من مقطعين هما ×عل‎ 
إلى ما بداخل الشيء أما ×8( فتعني (یث يشير إلى» أو «يلفت الانتباه إلى» أو‎ 1١ وتشير‎ 
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«يدل على وجود شيء). وقد استخدمت كلمة تكشيف في اللغة الإأنجليزية بمعنى 
إعداد كشاف أو إدخال كلمة في كشاف» ثم لحقتها کل ا 1٣d e>‏ وتشیر إلى 
الشخص الذي يقوم بإاعداد الكشاف. 

ويتضح من ذلك أن المعنى اللغوي لكلمة كشاف سواء في اللغة العربية أو في اللغة 
الإنجليزية يشير إلى إظهار الشيء أو كشف النقاب عنه مع ملاحظة أن اللغة الإنجليزية 
أظهرت معاني أخرى للكلمة منها قائمة تسبق الكتاب» وقائمة في نهاية الكتاب تضم 
اللأسماء والموضوعات كما تشير إلى أماكن ورودها في النص. (حسام الدين» 1994) 

ما المعنى الاصطلاحي لكلمة كشاف فنجد له تعريفات متعددة منها تعريف 
(عبدالهادي» 2005) الذي عرف الكشاف على أنه دليل محتوى المواد التي يحللها 
أو يكشفها بوساطة دوال معينة ويحدد موضعها أو موقعها بوساطة روابط معينة. كما 
يعرفه على أنه عبارة عن قائمة أو دليل بمحتويات المواد التي يكشفها بهدف تحديد 
المفاهيم التي تعالجها والموضوعات التي تعبر عن هذه المفاهيم والأماكن التي 
وردت فيها في النص. 

التكشيف هو تلك العملية الفنية التي ينتج عنها إعداد الكشافات. ويشير لانكستر 
إلى أن التكشيف هو عملية تحليل المفاهيم كذئراة٣A‏ 41٠امءء١ه٥‏ المرتبطة بمصادر 
المعلومات التي يتم تكشيفها ونقل هذه المفاهيم إلى مصطلحات تعبر عن المحتوى 
الموضوعي للوثيقة ssعدا‏ اط4 ۸۲ء uء00‏ من خلال الاعتماد على لخات التكشيف. 

ويتراوح عدد المصطلحات الكشفية التي تستخدم للدلالة على وثيقة معينة ما 
بين عدد محدود من الكلمات بقاعدة بيانات ببليوجرافية إلى مئات الكلمات بنظم 
النصوص الكاملة. وتنقسم عملية التكشيف التي يتم فيها التعبير عن المحتوى 
الفكري للوثيقة إلى مرحلتين أساسيتين هما: 

Conceptual Analysis التحليل المفاهيمي‎ - 


. Translation ةnجرتلاو‎ - 
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وبصورة أكثر تحديدأء يتم في إطار عملية التحليل المفاهيمي تحديد المفاهيم 
الأساسية التي تتناولها الوثيقة» بينمايتم في مرحلة الترجمة تحويل المفاهيم التي تم 
تحديدها إلى مصطلحات كشفية بالاعتماد على لغة تكشيف محددة مسبقا. 

ويعرف (عبدالهادي» 2005) عملية التكشيف بأنها عملية خلق أو إيجاد المداخل 
في الكشاف أو إعداد المداخل التي تساعد على الوصول إلى المعلومات في مصادرها 
وهي تتضمن 4 عمليات فرعية هي: 


1. الفحص الدقيق لأوعية المعلومات للتعرف إلى ماتشتمل عليه من أفكار 
ومعلومات. 


2. تحليل المحتوى الموضوعي للوثائق للتعرف إلى المفاهيم التي تتناولها. 
3. تحويل أو نقل المفاهيم إلى مصطلحات مشتقة من لغة التكشيف أو من 
الوثائق ذاتها. 


4. إضافة الروابط التي تعبر عن مكان وجود كل وحدة من الوحدات التي تم 
تكشيفها داخل المجموعة. 

وقد استخدم بعض الباحثين مصطلحات أخرى للدلالة على عملية التكشيف 
ومصطلحات التكشيف دون تمييز واضح بينها. على سبيل المثال مصطلحات مثل 
مؤشرات المحتوى ٥1)٤1‏ 0۴ sإndicato‏ للدلالة على المصطلحات» بينماينظر 
إلى عملية التكشيف على أنها عملية تحديد المحتوى والمؤشرات الدالة عليه 
والعلاقات التي تربط بين المؤشرات في الوثائق» بينما يفضل كونر C000۲‏ استخدام 
مصطلح مثل إعداد إشارات 2٣1٤«ذه۴‏ ويشير إلى مصطلحات التكشيف على آنها 
15 وينظر لعملية التكشيف على أنها عملية تحديد إشارات تصف مضمون 
الوثائق (1991 e e1.,‏ erاsەءم).‏ وتعد الكشافات المخرج الأساسي لعملية تمثيل 
المعلومات عن طريق التكشيف سواء تمت تلك العملية بطريقة آلية أو يدوية. 
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3.1.1 أهمية الكشافات 

الكشافات أو قواعد البيانات الببيلوجرافية هي إحدى الأدوات الأساسية لاسترجاع 
المعلومات. وأدوات الاسترجاع بصفة عامة هي عبارة عن نظم تم إعدادها لتيسير 
سبل إتاحة المعلومات. وتتضمن هذه الأدوات تسجيلات ببليوجرافية تعد بدائل 
للوثائق أو أوعية المعلومات. وتعمل أدوات الاسترجاع على تنظيم أكبر قدر ممكن 
من أوعية المعلومات التي يتم إنتاجها في جميع أنحاء العالم. ففي سنة 1892 كان كل 
م سول تايتف تلین ۴1-٤1٤‏ وهنري لافونتین 14٤01۸1٥1‏ رہ۳ یحلمان بتنظیم 
مؤتمر دولي بهدف التخطيط لإنشاء نظام دولي للضبط الببلیو جرافی U ۷e4‏ 
Control ( UBC‏ iographicاBib)‏ . وکانت معظم الجهود في تلك الفترة تتجه نحو 
بناء كشافات بالإنتاج الفكري في العلوم والتكنولوجيا. 

ويمكننا تخيل أهمية الكشافات أو قواعد البيانات الببليو جرافية إذا تصورنا مقدار 
الجهد والوقت والكلفة التي بحتاج إليها الباحث الذي يريد الوصول إلى معلومة 
وردت في مقالة معينة أو يريد تجميع الإنتاج الفكري حول نقطة معينة يريد إجراء 
بحث حولها أو باحث يريد الوصول إلى خبر ورد في صحيفة.. أو غيره. بالطبع 
فإن هذه العملية دون وجود أدوات تيسر هذه العملية سوف تكون مستحيلة في 
كثير من الأحيان. 

بالتالي فإن آهمية الكشافات تآتي مماتوفره من سبل وصول إلى المكونات 
الجر خا تالا رع المارمات من شب رد ريات وره بر اغا من 
الدقة والسهولة وفى أقل وقت ممكن. ويمكن تلخيص وظائف الكشافات وقواعد 
البيانات بصفة U‏ فيمايلي: 


بالنسبة للمستفيدين. 


2 توفير مداخل وصول منهجية متعددة ومتنوعة لكل وحدة من وحدات 


المعلومات التي يتم تکشیفها. 


الفصل التالث 


3. توفير سبل وصول إضافية من خلال المداخل الإضافية والإحالات وطرق 
الحت المخرعة الفى تر هاهذه الادوات 


4. تجميع المصادر المتشابهة معاًفي مكان واحدرغم وجودها رع ة في 
والمفاهيم والمصادر والمؤلفين والدوريات. 


5. تساعد الكشافات الموضوعية على التعرف إلى تطورات البحث في مجال 
موضوعي معين والعلاقات الجديدة بين الموضوعات الحديثة والقديمة. 

6> تساعد الكشافات على التعرف إلى المصطلحات المستخدمة في المجالات 
الموضوعية والتمييز بين المصطلحات المستخدمة وغير المستخدمة 
والعلاقات بين هذه المصطلحات» وتستمد الكشافات هذه الميزة من أدوات 
التكشيف وخاصة المكانز. 


@ 3.1.2 نظام التكشيف 
Indexing System‏ 


تتم عملية التكشيف وفقاً لنظطام محدد یعرف بنظام llتكشزف Indexing System‏ 
وهو عبارة عن مجموعة من الوحدات التي تتكامل مع بعضها بعضاً بغرض إنقاج 
الكشافات أو قواعد البيانات. تشمل هذه الوحدات مجموعة القواعد والإجراءات 
«اليدوية أو الآلية» التي تضبط وتحكم عملية التكشيف» هذا إضافة إلى مجموعة 
التجهيزات والآدوات اللازمة للتكشيف» والجانب البشري في عملية التكشيف 
المتمثل في مجموعة المكشفين. 


ويمكن القول إن نظام التكشيف يشتمل على المكونات الثلاثة لآي نظام معلومات 
وهي کالتالي: 
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3.1.2.1 المدخلات 


التكشيف إلى تيسير آليات للوصول إليه أهم مدخلات آي نظام للتكشيف» كما 


تشتمل اللات يا على المكشفين والتجيرات اللإزمة لحم ة التكفيف. 
ه٠‏ المجموعات 


تشتمل على مجموعة الوثائق التي يتم تكشيفهاء ولابد أن تخضع عملية اختيار هذه 
المجموعات لعمليات فحص دقيقة» حيث إن نظم التكشيف عادة ما تتعامل مع أنواع 
معينة من الوثائق يطلق عليها الوحدات الصغيرة لأوعية المعلومات أو الميكروميديا 
Micromedia‏ والتى تشمل أوعية معلومات مثل مقالات الدوريات» فصول الكتب» 
أعمال المؤتمرات, التقارير الفنية» براءات الاختراع.. الخ. وعادة ما تعمل معظم نظم 
التكشيف في إطار محدد ودقيق» حيث يتم تجميع أوعية المعلومات التي تدخل في 
طاق ها الاطار مس كان إطار ضرعا ار فكلا ارجدرافا وب جد ااا 
من أنظمة التكشيف من حيث تغطية المجموعات هى كالتالى: 


1. نظم التكشيف التي تغطي نطاقات جغرافية (عالمية» أقليمية» محلية). 


2 نظم التكشيف التي تغخطي قطاعات معرفية محددة ومجالات موضوعية 


0 


3. نظم التكشيف التي تغطي أشكالاً محددة من الوثائق مشل الرسائل الجامعية 
براءات الاختراع» الخرائط والوسائط المتعددة.. إلخ. 


ومن الجدير بالذكر أن نظم التكشيف العالمية تعتمد في الأصل على الجهود 
ال الراب إلى جم الإا اللكرى ال ري ية إن تجح الاهام نكري 
العالمى كان ومازال أحد الأفكار الرئيسة لمؤسسات المعلومات الدولية مثل الاتحاد 
الدو لى للمكتبات International Federation for Library Associati0¬ ٽln lanl‏ 
and [stitutions - IFLA‏ إلا نها وجدت أن تحقيق هذا الهدف أمر غير ممكن 
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وغير عملي في الوقت نشة» دون الاوك من جانب الحكومات النحلة. لذلك 
سعت الأمم المتحدة من خلال اليونسيست إلى إنشاء شبكات معلومات محلية في 
الدول النامية حتى يمكنها المشاركة في حصر وتجميع الإنتاج الفكري الوطني في 
المجالات العلمية المختلفة إلى جانب المشاركة في البرامج الدولية للمعلومات. 
ولعل أبرز نماذج نظم التكشيف العالمية حالياً تتمشل في أدوات البحث التالية: 
ISI WEB OF SCIENCE‏ 
SCOPUS‏ 


GOOGLE SCHOLAR 


وتتنافس هذه الأنظمة الثلاثة على تكشيف أكبر قدر من الإنتاج الفغكري 
العالمي وتوفير أدوات لقياس جودة وكفاءة المخرجات العلمية للمؤسسات والدول 
والجامعات والأفراد والمصادر (الدوريات والمؤتمرات.. إلخ). 

٠‏ التجهيزات 

تشمل التجهيزات كل مايدخل في عملية التكشيف من أجهزة وأدوات ومعايير 
وقواعد وإرشادات واستمارات وغيرها من التجهيزات اللازمة لعملية التكشيف. وتشمل 
الأجهزة الداخلة في نظم التكشيف اليوم» حاسبات آلية بأنواعها المختلفة وبرامج 
متخصصة في عمليات بناء الكشافات واسترجاع المعلومات. وتجدر الإشارة هنا إلى 
آن هناك نظم تكشيف آلية يمكنها أن تؤدي عملية التكشيف الكامل للوثائق دون الحاجة 
إلى مكشفين أو لخات تكشيف» حيث إن هذه النظم عادة ما تعتمد على استخدام اللغة 
الطبيعية للوثائق. أما الأدوات الداخلة فى عملية التكشيف فتشمل لغات التكشيف» 
قواعد الفهرسة» خطط التصنيف» القوافيس والمعاجم» سياسات التكشيف.. إلخ. 


وتعد القواعد والمعايير من أهم العناصر التي تضبط عملية التكشيف» فهناك 
مجموعة من المواصفات القياسية التي يتم تطبيقها في نظم التكشيف» ومن آمثلة هذه 
المواصفات: المواصفة الأمريكية التي صدرت عن الجمعية الأمريكية لعلم المعلومات 
American Society for Information Science:ASIS‏ ور قمها 39.41968 والمواصفة 
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التی صدرت عن المعهد البریطانی للمعاییر 110ئ1 British Standards‏ بالمملكة 
المتحدة) والتي تحمل رقم B93700_1976‏ وتحدد هذه المواصفات القياسية مفهوم 
ومکونات نظم الت لتکشيف. 

Indexes المکشفون‎ 

المكشف هو الشخص الذي يقوم بعملية التكشيف» ولابد أن تتوافر في هذا 
التكشيف على أكمل وجه. ولعل أهم المؤهلات التي يجب توافرها في المكشف 
هو التخصص الموضوعي أو الإلمام الدقيق بالمصطلحات والبناء المعرفي للمجال 
الموضوعي للوثائق التي يقوم بتكشيفهاء بمعنى أن يكون المكشف قادرا على التعامل 
مع المجال الموضوعي لنظام التكشيف. 

ويرى ماثيس ( 1998 0131١,‏ أن عمليات التكشيف التي يتم فيها تحديد 
واصفات البيانات يمكن أن تقوم بها إحدى الفئات التالية: 

Indexes المکشفون‎ 

وغالباً ما تعتمد هذه الفغة على اللغات المضبوطة فى اختيار وانتقاء المصطلحات 
الكشفية» وعلى الرغم من تميزها بالجودة العالية والدقة في عمليات تحديد 
المصطلحات» إلا أن هذه العملية عادة ماتكون مكلفة وتستغرق وقتاً وجهدا كبيرين؛ 


الأمر الذي يجعل من الصعب الاعتماد عليها بصورة كاملة مع النمو الهائل في 
المحتوى الذي حدث مع انتشار تطبيقات الإنترنت. 


1. المؤلفون كإهطاس4: المؤلف هو المنشى الأصلي للوثائق المراد وصفها 
وتكشيفها: ولكن واصفات بيانات المفهرسين والمؤلفن تشترك فى مشكاة 
أساسية وهي أن المستفيد النهائي من الوثيقة غير متصل بعملية التكشيف 
هذه أو متعزل عنهاتماما. ولذلك ظهر الأتجاه الفالت» ألا وهو التكشيف من 
خاول ادي 


الفصل التالث 


2. المستفيدون ١إعءلآ:‏ ظهر هذاالنوع من التكشيف وانتشر في أواخر عام 
0م من خلال مدونات الویب ءعه81 ا۷6؛ حيث توفر هذه المدونات 
روابط )دا1 يتم عرضها جنباً إلى جنب مع تعليقات المستخدمين (أي 
مقترنة بها)» ويعتمد هذاالنوع من التكشيف على اللغة الطبيعية. 


يرى البعض آنه من الصعب أن يقوم مكشف غير متخصص بتكشيف وثائق 
متخصصة في الفيزياء النووية» وفي الوقت الذي لا يعرف فيه هذا الشخص آي شيء 
عن علم الفيزياء وعلاقة هذا المجال الموضوعي بالمجالات الآخرى. كمايرى 
البعض أيضاً أنه من الصعب أن يقوم شخص بالتكشيف دون دراسة علمية لإجراءات 
وآليات التكشيف. 


رتود وجا ظر قي ست الا ار لى تر هرور أف يعمل الم رن 
الموضوعيون على تكشيف أوعية المعلومات في مجالاتهم الموضوعية المتخصصة 
بعد تدريبهم على أساليب ومبادئ التكشيف. وهذا هو النموذج الأكثر تطبيقا في 
معظم أنظمة التكشيف المتخصصة» وقد أوضح محمد (1999) أن 80./ من المكشوف 
في مراكز المعلومات القطاعية التي تتولى بناء قواعد البيانات الببليوجرافية المصرية 
من افخ ههن مر قرعا الین تم قاري على اساليي االكتيا 


أما الاتجاه الثاني فيرى أنه من الممكن لأخصائيي المعلومات خريجي أقسام 
المكتبات والمعلومات» أن يقوموا بعمليات التكشيف إذا ما أحسنوا الاستفادة من 
الآدوات المتاحة لديهم من قواميس متخصصة ولغات تكشيف وخطط تصنيف 
وغيرها من الأدوات التي تمكنهم من التعرف إلى علاقة الموضوعات ببعضها بعضاء 
والمصطلحات المتخصصة في المجالات الموضوعية التي يعملون على تكشيفها. 
والحقيقة أن لكل وجهة نظر ومزاياها وعيوبهاء وإن كان من الأفضل المزج بين 
الاتجاهين في عمليات التكشيف بغخرض الاستفادة من الخبرات الموضوعية إلى 
جاب ارات الية حف إا فا اله اسك جرد جال اتی من 
ممارسته بسهولة وإنما هي مهنة بها الكثير من الجوانب العلمية إلى جانب العمليات 
الفنية التي تحتاج إلى ارات خاصة تتعلق باستخدام أدوات ومعايير الفهرسة 
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الحالية أو المتوقعةء كما تتطلب قدراً كبيراً من الثقافة والفهم للعلاقات المتشابكة 

وإلى جانب المؤهلات التي ينبغي أن تتوافر في المكشف لابد أن يتمتع المكشف 
بمجموعة من المهارات تشمل القدرات اللغوية وإمكانيات التعامل مع الحاسب 
الآلي وشبكات المعلومات التي تمكنه من نقل وتبادل التسجيلات الببليوجرافية مع 
النظم الأخرى» وإدارة النظام والتعامل مع قضايا المستفيدين المتعلقة بالدعم الفني 
وتدریب المستفيدين والرد على الاستفسارات. 


3.1.2.2 عمليات التحليل والتكشيف 


من خلالها عملية التكشف نفسها وتشتمل على خظطوتين آساسيتين هما 
٠‏ التحليل المفاهيمى 
الترجمة 


وستتم مناقشة إجراءات التحليل والتكشيف بالتفصيل لاحقاً. 


3.1.2.3 المخرجات 


تعد الكشافات وقواعد البيانات ونشرات الاستخلاص آهم مخرجات آي 
نظام تكشيف واسترجاع معلومات» هذا إلى جانب ما تتضمنه هذه النظم من 
معالجة لاستفسارات المستفيدين من أجل إجراء الببحث عن الوثائق المناسبة 
لهذه الاستفسارات. 


ويشتمل نظام التكشيف على العديد من النظم الفرعية الداخلة في تكوينهء والتي 
تتفاعل معا في منظومة واحدة من أجل تلبية احتياجات المستفيدين. ويتيح نظام 
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التكشيف طرقاً متنوعة لخزن واسترجاع المعلومات التي يمكن من خلالها تلبية 
احتياجات المستفيدين من النظام بغخرض تيسير سبل بحث واسترجاع المعلومات. 


3.1.3 التكشيف ونظم تمثيل واسترجاع المعلومات 


أشار لانكستر إلى أن نظام استرجاع العلومات يتكون من 6 نظم فرعية هي: 
(لانکستر» 1997( 


1 


2 


9 


.6 


النظام الفرعي لاختيار الوثائق 

النظام الفرعي للتكشيف والتحليل 

النظام الفرعي للغة التكشيف 

النظام الفرعي للبحث 

النظام الفرعي الخاص بالتفاعل بين المستفيد والنظام 


النظام الفرعي الخاص بالمضاهاة 


يقع النظام الفرعي للتكشيف في محطتين أساسيتين من محطات العمل في نظم 
تمثيل واسترجاع المعلومات هما: 


النظام الفرعي للتكشيف والتحليل. 


النظام الفرعي للغة التكشيف. 


بالتالي يتضح أن التكشيف يشكل محور نظام تمثيل واسترجاع المعلومات, لأن 
هذا النظام يعتمد بشكل كبير على المضاهاة بين ناتج عملية التكشيف المتمثل في 
المصطلحات التي تعبر عن احتياجات المستفيدين» وعملية تحليل الاستفسارات 
المتمثلة في استراتيجية الببحث التي تطابق في تكوينها عملية تحليل وتكشيف 
الرقاتق ول اها عل الط ن ااا تاهمالل 
المفاهيم» الترجمة» كماهو موضح في الشكل (2:3) 
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3.1.4 العلاقة بين التكشيف والاستخلاص والبحث 


يوجد تداخل كبير بين هذه العمليات الثلاث (التكشيف والاستخلاص والبحث)» 
حيث لا يمكن فصلهافي أي نظام لخزن واسترجاع المعلومات» بل إن كفاءة أي نظام 
لخزن واسترجاع المعلومات يعتمد على جودة هذه العمليات الثلاث. ويعد التكشيف 
والاستخلاص وجهين لعملة واحدة» فالتكشيف الجيد قد يستخدم في بناء المستخلصات» 
كسا آن المستخلص الجيد يكن الاعتماد عله فى تكشيف الرثائنق. كماآن التكشيف 
والاستخلاص ليس لهما آي أهمية إذا لم يستخدما ا الفكري وإتاحة 
سبل الوصول إلى أوعية المعلومات. وعلى العكس من ذلك فإن البحث دون توافر 
مؤشرات لمحتوى أوعية المعلومات (تكشيف واستخلاص) يجعل المستفيد مضطراً إلى 
أن يفحص كل وثيقة على حدة» وهو أمر غير منطقي وغير عملي في الوقت نفسه. 

ويعد رضا المستفيد ١10٥۹ءاةS‏ مهل الجانب الأساسي الذي يمكن من خلاله تقيیم 
مدى قوة أو ضعف العلاقة بين هذه العناصر الثلاثة. فالمستفيد عادة ما يهتم بصفة عامة 
بالوقت المستغرق في الوصول إلى المعلومات. ولا شك أن عمليات التكشيف والاستخلاص 
تساعد على الوصول إلى مصادر المعلومات في أقصر وقت ممكن» حيث إنها تقدم بدائل 
للوثائق أكثر إيجازا وتوفر إرشادات للوثائق الصالحة دون الحاجة إلى الرجوع إلى الوثائق 
الكاملة لفصل مجموعة الوثائق الصالحة عن مجموعة الوثائق غير الصالحة. كمايهتم 
المستفيد أيضا بدقة النتائج المسترجعة» والتي تمل نقطة الربط الحقيقية بين عمليات 
التكشيف والاستخلاص» وعمليات البحث في نظم استرجاع المعلومات. 


يعتمد تحديد نوع عملية التكشيف على الطريقة التي تستخدم في الحصول على 
المصطلحات الكشفية» فإذا كانت المصطلحات يتم اشتقاقها من النص الأصلي يطلق 
عليها التكشيف الاشتقاقي Derivative Indexing‏ اما إذا كانت المصطلحات يتم تعيينها 

ثيقة فيطلق عليه التكشيف بالتعيين .Assingnment Indexing‏ وخم مصطلح 
التكشيف الاشتقاقى كمرادف لتكشيف الكلمات المفتاحية» نظراً لأن المصطلحات 
ااا اعا رها من اكامات الرارة بال با رلاب الاتمادعلي آي 
أداة لضبط المصطلحات. وعلى الجانب الآخر» فإن التكشيف بالتعيين يعتمد على 
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اشتقاق أو تعيين المصطلحات الدالة على مفاهيم من خلال أداة لضبط المصطلحات 
مشل المكانز أو قوائم رؤوس الموضوعات. وعادة ما يطلق على المصطلحات التي 
يتم تعيینها باستخدام المصطلحات المضبوطة الواصفات ۶٣٥ام‏ ۲ءء حتى لو لم یتم 
تعيين تلك المصطلحات من مكنز مصطلحات. فإذا كان المفهوم الذي يتم تكشيفه 
جديدأ أو اسم علم مثل بيت المقدس أو المسجد الأقصى ولا يجد واصفه مطابقة 
له بالمكنز أو قائمة المصطلحات المضبوطة» فإنه يمكن وضع محدد ۲ءاfا‏ "ل1 في 
عملية التكشيف بالتعيين. بمعنى آخر تحديد مصطلح جديد للدلالة على ذلك المفهوم 
أو اسم العلم وإضافته لأداة ضبط المصطلحات وهو ما يطلق عليه السند الأدبي في 


ويتم أحياناً الإشارة إلى التكشيف بالاشتقاق والذي يعتمد على أي أداة لضبط 
المصطلحات التكشيف الحر ۴e [ndexing )۴uع ٣2۸1,1993)‏ وتجدر الإشارة إلى 
آنه يوجد جدل دائر منذ بدايات النصف الثاني من القرن العشرين حول استخدام 
التكشيف بالتعيين أو التكشيف بالاشتقاق ومازال هذا الجدل دائرا بين المتخصصين 
ويمكن القول بصفة عامة إن انتشار المعلومات الرقمية آدى إلى انخفاض ملحوظ في 
استخدام الكفشف مالين باستكا المصطلحات المفبرظة و جح ذلك رامل 
تتعلق بالكم والكيف (جودة عملية التكشيف). 


3.1.4.1 التكشيف الآلي والأتوماتيكي 


Automated and Automatic Indexing 


يتم تصنيف كل الأنشطة التي تتضمنها عملية التكشيف إلى نوعين أساسيين هما: 
فکري [ھںاec‏ 1)11« آل Automated‏ وقد تم توضیح الجزءالفكر ي في عملية 
التكشيف الذي يتضمن التحليل المفاهيمي والترجمة في الجزء السابق. 

أما الجزء الآلي في عملية التكشيف فيتضمن الترتيب الهجائي وتكوين مداخل 
الكشاف» فبينما يتم إجراء الجزء الفكري من عملية التكشيف بالاعتماد على الجهود 
البشرية في معظم الأحيان» ومع التطورات المستمرة في بحوث الذكاء الاصطناعي 
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أصبح من الممكن إجراء عملية التكشيف بالاعتماد على الحاسبات الآلية بصورة 
فعالة. وتعتمد نظم التكشرف الى Aut 0amted !ndexing‏ علی تو ظیف الحاسہات 
في إجراء كل من الجوانب الفكرية والميكانيكية في عملية التكشيف. ويطلق على 
عملية توظيف الحاسبات الآلية في إجراء الجوانب الآلية في التكشيف وقيام 
البشر بأداء الجوانب الفكرية مصطلح التكشيف بالآلة ع٥1‏ ×ع لہ[ )۳4٥ا‏ اA.‏ من 
ثم فالفرق بين التكشيف الآلي والتكشيف بالآلةء أن الأول يتم كلياً بالاعتماد على 
الحاسبات» بينما يعتمد الثاني على إجراء الجانب الميكانيكي في تلك العملية 


وأحياناً يُطلق على التكشيف الآلي مصطلح التكشيف الميكانيكي» حيث يعد 
التكشيف الالي أحد الحلول المبتكرة لمشكلات عدم الاطرIد Inconsistency‏ 
والكلفة المرتفعة المرتبطة بالتكشيف اليدوي. مع ذلك فإن نقطة الضعف 
الجوهرية في التكشيف الآلي تتمثل في آنه يتعامل مع الجانب الفكري 
في عملية التكشيف بكفاءة قل بكثير من إمكانيات أخصائيي المعلومات 
المحترفين. ويرجع السبب في ذلك إلى أن الحاسبات لا تستطيع التفكير ولا 
تلك القدرات اة الشر. روفي القابل»يحرر الكفيف اللي المحففين 
التحرقين سن بعص المهام التكفيفة التكرارية المملة من ت يمكتهم الركيز 
على العمليات الفكرية للتكشيف. وتزداد قيمة التكشيف الآلي بصورة أكبر مع 
تضخم المعلومات المتاحة فى البيئة الرقمية والتي تنمو بمعدلات كبيرة تتجاوز 
ملايين الجيجابايت التي تنتج يومياً في البيئة الرقمية. ويعتمد التكشيف الآلي 
على العديد من الأساليب التي تم تطبيقها بالاعتماد على خوارزميات تردد 
الnصbطلحlت «Term Frequency‏ تقار lالnصbطlZJlت «Keyword Poroximity‏ 
مواضع المصطلحات ناوم[ صما التكشيف الاحتمالي Probability‏ 
[nexin‏ واللغخویات .Ling istics‏ وقد تم تو ظيف المصطلحات المضبوطة 
في بعض إجراءات التكشيف الآلي» ولكنها لم تحقق النجاح المطلوب وأثرت 
سلبا في الطبيعة الحاسوبية لذلك النشاط. 
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3.1.4.2 التكشيف في بيئة الروابط الفائقة 


Indexing in the hyper text Environment 


ينمو حجم المعلومات المتاحة في بيئة الروابط الفائقة بسرعة كبيرة» وترمز تلك 
ال إل لبك نالعال ة أو شك ال بب و تد المعلر مات ال اة 
على الويب في تمثيلها لمصطلحات الكشاف على استخدام الروابط الفائقة» والتي 
تجسد كلاً من مصطلحات الكشاف وآلية تحديد موقع المعلومات. 


وبمعنى آخر يتم توظيف الروابط الفائقة على آنها مصطلحات كشفية ڇ"1×ءل,! 
«Terms‏ حیث تقود تلك الروابط الفائقة المستفيد بسلامة إلى المواقع ال تشير إليها 
مص طلحات الكشاف. 


وبالمقارنة مع غيرها من بيئات التكشيف فإن هذه البيئة تتميز بالملامح التالية: 


أول: مصطلحات الكشاف في بيشة الروابط الفائقة تمل جزءاً أصيلاً من الوثائق 
التي يتم تكشيفها وليست كيانات مستقلة خارج اللص الذي يتم تكشيفه. 


انا O I‏ قق معا في وحدة واحدة 


ثالثاً: من الصعب التعرف في تلك البيئة إلى البنية الهرمية للموضوعات والمفاهيم 
الفرعية وعلاقاتها ببعضها بعضاء كما هو الحال في البيئة التقليدية للتكشيف. 


رابعاً: يمكن فقط في تلك البيشة استخدام الروابط الفائقة التي تحتوي على 
مؤشرات محت وى Content Base 15 Lin)‏ کہصطلحات کشاف» ومن ثم ل 
يتم توظيف الروابط التنظيمية كما 21١0ناةzنمدع!0‏ مثل الصفحة التاليةء 
السابقة» أعلى الصفحة في عملية التكشيف )1995 .(Chu & Rosenthal,‏ 


خامتا : يهتم القائمون على إعداد الوثائق ای و ی 
بدور عملية التكشيف التي تنم أحياناً بالتزامن مع عملية بناء الوثيقة a‏ 
وأحيانا قبلها. وكتتيجة لذلك فإن مصطلحات مثل (انقر هنا) والتى نادراً 
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مايتم اختيارها كمصطلحات كشفية من جانب المكشفين تظهر في هذه 
البيئة على آنها أسماء لروابط فائقة من ثم يتم تكشيفها. 
سادسا: تقلل تلك البيغة التضارب الذي يحدث بين الوثيقة الأصلية والمصطلحات 
الكشفية؛ حيث يقرر منتج الوثيقة عند بنائها من البداية ما هي المصطلحات 
التي تستخدم في وصف الروابط الفائقة من ثم يتم تكشيفهاء أما الوثائق 
التقليدية فيتم كتابتها ولأ ثم يقوم المكشف بتحليل الوثيقة واختيار 
المصطلحات الكشفية بخرض تمثيلها. 
وبناءً على الملامح الخاصة بعملية التكشيف في بيئة الروابط الفائقة» يجب استخدام 
الطرق الملائمة فى تكشيف تلك الوثائق. فعلى سبيل المثال يجب اختيار أسماء الروابط 
بعناية عند إعداد وثيقة يتم نشرها عبر بيئة الروابط الفائقةء لذلك ظهر مجال مهم في تكشيف 
تلك البيئة يطلق عليه تحسين أداء محر كات إلحث .Search Engines Optimizati0¬‏ 


3.2 التوسيم الاجتماعي 
Social Tagging‏ 


ظهر التوسيم الاجتماعي مع بدايات الجيل الثاني للويب الذي تحول فيه 
المستفيد في بيئة العنكبوتية من مُستقبل للخدمة إلى متفاعل مع الشكبة» ثم تطور 
بصورة أكبر مع التوسع في بيئة الويب الدلالي التي تركز على الربط بين الخدمات 
وإبراز المعاني والدلالات التي تحملها الصفحات. ويتم من خلال أدوات التوسيم 
تستخدم في وصف الكيانات والمفاهيم والأفكار التي تحملها تلك المصادر. 


ومن المعروف أنه توجد آنماط متعددة للتوسيم استخدمت في المكتبات منذ القدم» 
منها استخدام الملصقات sءإعءطLab‏ والتي تطورت إلى اللأكراد العمودية 84۲٥0‏ أو 
محددات الهوية بترددات الردي و" (۸۴12). ومع تطور أساليب التواصل الاجتماعي ظهر 


RFID: Radio-Frequency IDentification (1) 
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التوسيم الاجتماعي كآلية جديدة مختلفة عن تلك الأشكال التقليدية التي استخدمت في 
تحديد هوية الوثائق. وقد ظهر التوسيم الاجتماعي في بداية عام 2003 كوسيلة يستخدمها 
المستفيدون فى إثراء المصطلحات الدالة على الوثائق المتاحة على الإنترنت» فيماعرف 
بالتکشیف الاجتماعي nexin‏ اS0cia.‏ بالتالي فالتوسيم الاجتماعي يعد أحد الأنشطة 
التي يمارس فيها المستفيد النهائي عملية التكشيف بالكلمات المفتاحية» وتتم عملية 
التكشيف هنا بعد إتاحة الوثيقة للمستفيد الذي يقوم بتكشيفها أو تتم بطريقة آلية من 
خلال نظام استرجاع المعلومات الذي يُخزن نتاقج تفاعل المستفيد مع النظام. من ئم 
فإن التوسيم الاجتماعي ليس مساوياً تماما أو مطابقا للتكشيف بالكلمات المفتاحبة نظرا 
لأن المستفيد عندمايقوم بعملية التوسيم يختار أسماء أو عبارات تستخدم للدلالة على 
الوثيقة أو لوسم (تسمية) الوثيقة وليس تكشيفها. 

ويعد التوسيم الاجتماعي أحد آنماط حركة الجيل الثاني للويب التي تسعى إلى 
توسیع نطاق مشار كة المستفيد في بث وإتاحة المعلومات مثل المدونات ع1 1ععه81 
والويکيبيديا.. الخ. ویعد موقع فیلکر )زا۴ لمشاركة الصور من أقدم أنظمة التوسيم» 
کمایعد موقع 1‰ الذي تغير عنوانه إلى صci0us.co de1‏ في عام 7 أيضا 
من أقدم آنواع هذه النوعية من المواقع. ففي مثل هذه النوعية من المواقع يستطيع 
المسفيدون اللعليق غل ال تاق النعية أو ال ر ساط المددة الماحة على الريب 
بكلمات أو عبارات من اختيارهم يمكن أن تستخدم في بحث واسترجاع تلك الوثائق. 

وتوجد العديد من الأدوات التي تتيح للمستفيد إضافة كلمات مفتاحية للوثائق التي 
تكشفها أدوات بحث والاسترجاع على الإنترنت» لعل أبرزها محرك البحث لع طن۴ والذي 
يعد أحد أهم وأبرز قواعد البيانات الطبية والذي يصدر عن المكتبة القومية الطبية ويهتم 
بتمثيل وتكشيف مصادر المعلومات الطبية من درويات وأعمال مؤتمرات.. إلخ» حيث يتيح 
للمستفيد التوسيم الاجتماعي للوثائق وينتج عنها سحابة الواسمات إ0uا‏ عه1. 

على الرغم من أن التوسيم الاجتماعي قد فتح مجالاً جديدأ في تمثيل واسترجاع 
المعلومات يتح للمستفيد إمكانيات المشاركة الفعالة في عمليات التمثيل» فإنه 
يعاني من نفس المشكلات التي تظهر في التكشيف الآلي مثل القصور الذي يبرز في 
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عمليات التكشيف بالكلمات المفتاحية ومنها المترادفات والمشترك اللفظي.. الخ» 


وعلى الرغم من ذلك فإن التوسيم الاجتماعي يُعد نمطا متميزاً وأحد البدائل 
المهمة التى أتاحتها بيئة الشبكة العنكبوتية لتمثيل المعلومات وتيسير استرجاعهاء 
نظراً لأن الواسمات التي يضعها المستفيدون» إضافة إلى مزاياها الأخرى» تتيح نقاط 
إتاحة إضافية يتم اختيارها من جانب المستفيد النهائي كمصطلحات استفسار لتيسير 
الوصول إلى المعلومات» وتمكن المستفيدين الآخرين من التوسع في البحث وفهم 
التتائج المسترجعة من خلال الواسمات المستخدمة. 


وقد ساعد التوسيم الاجتماعي كأحد الأنماط الجديدة في تمثيل المعلومات على 
ابتكار أساليب لإثراء مجال استرجاع المعلومات (1,2008ا5). 


ويعد التقسيم الجماعی sعنصهمه‌یاه۴‏ أحد أبرز تلك الابتكارات» ویشیر مصطلح 
التقسيم الجماعي» الذي سكه لأول مرة العالم توماس فاندر ۴م۷4 كة٣0ط1‏ في 
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عام 4 إلى مكونين اباس هما المجتمع Folks‏ والتقسيم 1raxon0m¥‏ وبعبارة 
أخرى فإن التصنيف الاجتماعي هو عبارة عن نطام تصنيف تم بناؤه باستخدام 
واسمات عه أنشأها المجتمع أو المستفيدون النهائيون» وسوف يتم مناقشة التصنيف 
الاجتماعي والوسم الاجتماعي فيما يلي. 

وعادة مايأخذ الوسم الاجتماعي شكل سحابة الواسمات ل»ها٣‏ sعة1‏ والتي 
تعد تجميعا مر ئيا للواسمات Visual Alggregation of Tags‏ يتم عرضها في مواقع 
الوسم ئك "g18‏ بالاعتماد على تردد الوسم ragged Frequencies‏ وتساعد 
سححابة الواسمات المستفيدين على اختيار المصطلحات الملائمة سواء فى عملية 
الوسم أو الاسترجاع. ٠‏ 


3.3 التقسيم إلى فئات 
Categorization‏ 
يساعد التقسيم إلى فقات على تمثيل المعلومات بصورة هرمية متتالية في البناء 
توضح الأقسام والأجزاء التي ينتمي إليها كل قسم. وينقسم هذا النوع من أنواع تمثيل 
المعلومات إلى نمطين أساسيين» سيتم منقاشتهما هنا بالتفصيل في القسم التالي. 


3.3.1 أنماط التقسيم إلى فئات 
Types of Categoration‏ 


يعتمد النمط التقليدي للتقسيم إلى فقات على استخدام نظم تصنيف المعرفة التقليدية مثل 
خطة تصنيف ديوي العشري» مكتبة الكونجرس. ويطلق على هذا النمط من أنماط التقسيم 
إلى فقات عالميا مصطلح التصنيف ١٥1ا4ء1٤زيهاC‏ والذي يتم تطبيقه بصفة عامة على 
مقتنيات المكتبات وخدمات المعلومات» ويعتمد التصنيف على استخدام أساليب متنوعة 
لترميز المعلومات تشمل الأرقام والحروف أو مزيجا منهما إلى جانب العلامات الخاصة. 


ومع تقدم الإنترنت وانتشار استخدامها في بث وإتاحة المعلومات من خلال مواقع 
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الويب» اتخذت المعلومات التي يتم بثها من خلال هذه البيئة مجموعة من الملامح 
الجديدة تشمل المعلومات العابرة التي يتم إزالتها أو تخييرها وتعديلها بسرعة» ونظرا 
لأن المعلومات المتاحة مختلفة في مدى جودتها (حيث إنه لا يوجد أي رقابة عليها) 
إلى جانب ضخامة الحجم. لذلك فإن استخدام نظم التصنيف التقليدية في تمثيل 
المعلومات لتقسيم هذا الكم الهائل سريع التغيير والمتنوع في مدى جودته يبدو 
آمرا مكلفا للغاية» وغير ملائم لطبيعة تلك المعلومات. ومن هنا ظهرت الحاجة إلى 
نظام جديد لتقسيم المعلومات المتاحة على الإنترنت إلى فغات فظهر تصنيف الويب 
Taxonomy‏ والذي یعتمد على استخدام غات واسعة لتقسيم مواقع وصفحات 
الويب. ويعد دليل الببحث ۲10٥0‏ الأداة الرائدة في هذا المجال» والذي أصبح فيما 
بعد أحد آبرز نماذج تمثيل المعلومات على الويب. 


أقسام أكثر تخصيصأ مع وضع روابط فائقة مباشرة تغني عن استخدام نظم الترميز 
الرقمى أو الهجائى والتى تعكس إطار البناء الهرمى والعلاقات بين الفقات. 


3.3.2 مبادئ التقسيم إلى فئات 

عند استخدام التقسيم إلى فغات لتمثيل المعلومات يتم التعبير عن الوثيقة بفة 
واحدة وأحياناً اثنتتان وذلك في حالة المواد التي تعالج موضوعات متداخلة. وبمعنى 
آخر يتم تصنيف كل وثيقة تحت فئة واحدة فقط من الفئات المحدده بنظام التقسيم. 

وتتطلب هذه الممارسة أن تكون الفئات المختارة بنظام التقسيم إلى فقات تتميز 
بمايلي: 

Exhaustive ةlgnشلll‎ ° 

Mutually Exclusive الحصرية تة‎ * 


من ثم يمكن القول إن نظام التقسيم إلى فقات لا بد أن يشتمل على كل الفقات 
المحتملة لتمثيل المعلومات بدقة. وفى الوقت نفسه»ء يجب أن تكون هذه الفئات حصرية 
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بشکل تبادلي وواضح (بمعنى آنه يمكن تكرارها). فإذا كان النظام لا يحقق الملمح 
الأول» فإن بعض المعلومات سيكون من الصعب تمثيلها وفقاً للفات المتاحة بنظام 
التقسيم. وإذالم يتحقق الملمح الثاني يكون من الممكن استخدام أكثر من فئة واحدة 
لتمثيل الموضوع نفسه في نفس الوثيقة. كما أن عدم توافر أي منهما أو كليهما بضعف 
تماسك نظام التقسيم إلى فقات. ومن المبادئ المهمة أيضاً التي يجب أن تتوافر في أي 
نظام للتقسيم إلى فقات: المرونة وسهولة الاستخدام ولكنها ليست مبادئ أساسية. 


وقد سعت معظم آدوات الوصول إلى المعلومات على الويب إلى بناء أدلة 
بحث تعتمد على تقسيم الويب إلى فقات مع بدايات ظهور محركات البحث في 
عام 4 ومنها دليل البحث ياهو ١١0ء.۲4100‏ ودليل البحث جوجل. وقد قسم 
كل منهما الويب إلى 14 فة موضوعية أساسية وتحت كل فئة رئيسة مجموعة من 
الففات الموضوعية الفرعية التي وصلت إلى أكثر من 90 فة فرعية. وتجدر الإشارة 
إلى أن أدلة ياهو وجوجل تم إغلاقها منذ عام 2014. ولعل آبرز الأمثلة للتقسيم إلى 
فقات في قواعد البيانات هو إمكانيات التصفح التي تتيحها الكثير من قواعد البيانات 
الدولية لعل ابرزها قاعدتا بیانات Sie 1٥e‏ گە Web‏ وScopus.‏ ويمكن مراجعة الفئات 
الموضوعية لقاعدة بيانات كامهء5 من خلال مراجعة الموقع الخاص بتقرير 1480ء5 
المتاح على الرابط التالي : .https://www.scimagojr.com/journalrank.php‏ 


3.3.3 العلاقة التي تجمع بين الاتجاهين 


تتشابه الطريقتان المستخدمتان في التقسيم إلى فقات في العديد من الملامح» لعل 
أبرزها هو تمثيل المعلومات في صورة فئات لها بنية هرمية تعتمد على قوة العلاقة 
بين مصدر المعلومة والفئة التي ينتمي إليهاء كما أن الفقات عادة ماتلتزم تتاإبع 
خطى في عمليات البناء والوصول إلى المعلومات. ونظرألعدم قدرة نظم التصنيف 
التقليدية على متابعة التطورات المتسارعة في حجم الويب وطبيعتها الترابطية» ظهرت 
نظم تصنيف الويب التي أطلسق عليها أدلة البحث في البدايةء ثم تطورت تلك النظم 
إلى آدوات تعتمد على آساليب التنقيب عن البيانات عدن« ماه( وعناقيد الويب 
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Web Clustering‏ والتي تستخدم أساليب التحليل الدلالي للمفاهيم بالاعتماد على 
نظم تصنيف الويب أو التوكسونومي. مع ذلك توجد بعض الاختلافات الأساسية 
بين الاتجاهين» وتعتمد هذه الاختلافات على طبيعة الإطار المستخدم لأغراض 
تمثيل المعلومات. فقد تم استخدام التصنيف مع أنواع متعددة ومتنوعة من مصادر 
العار ماتا و ت ترا كاد ابال تمل الا مات اما سيت الريب ا 
ما ينظر إليه على أنه طريقة سريعة ومرنة في تمثيل المعلومات. ومع ازدياد حجم 
المعلومات القابحة التى بحت دات أعمية كببرة بالسبة إلى المستفيدين سن الويبء 
بدا استخدام اا التقليدي في تقسيم المعلومات المتشابكة على العنكبوتية» 
وفي الوقت نفسه تحسنت النماذج المستخدمة في بناء نظم تصنيف الويب من خلال 
تطبيق نماذج معمارية الويب عا »انا ء4 ط۷6 والتي نشأت أساسا اعتمادا على 
نظم التصنيف التقليدية مشل التمثيل الهرمي. 


علاوة على ذلك فإن تقسيم النصوص إلى فقات» من وجهة نظر تقنيات الميكنة 
ب هرر ار على تت لري اکر ين الم اا ى يك اوج 
المعلومات الرقمية يتزايد بسرعة كبيرة. فمع اهتمام الباحثين بالتصنيف الآلي 
Automatic Classification‏ حدث تقدم کبیر في آليات التقسيم إلى فقات» إلا أنه 
توجد حاجة ماسة إلى توظيف العقول البشرية للخروج بنظم تصنيف دقيقة» والتي 
يتعذر تحقيقها مع استخدام خوارزميات تعتمد على الآلات فقط. بمعنى أن التدخل 
البشري عنصر مهم في تلك العملية حتى الأن. 


Sum ص212٤٥١ التلخیص‎ 3.3.4 


التلخيص هو تعبير موجز ومختصر للمحتوى المعلوماتي» بحيث يصف ذلك 
الحقائق والأفكار الأساسية التي تتضمنها الوثيقة. وتوجد أربع طرق أساسية في 
التخليص في البيئة الرقمية هي المستخلصات والملخصات والاشتقاقات والتلخيص 
الوافي للموقع» ولكل طريقة من هذه الطرق أدواتها وآلياتها. وسيتم فيما يلي 
استعراض تلك الطرق ومخرجات كل منها: 
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Abstracts المستخلصات‎ 3.3.4.1 


المستخلص عبارةعن تمثيل مركز ودقيق لمحتوى الوثيقة بالاعتماد على أسلوب 
إعداد المستخلصات والذي يتم تنفيذه من خلال أخصائيين مؤهلين لأداء تلك 
العملية» ذلك على الرغم من محاولة تطوير أساليب آلية في الماضي (1958,١01ا).‏ 
ويجب أن يتم كتابة المستخلص بأسلوب يشبه بدرجة كبيرة الوثيقة الأصلية» على 
الرغم من صعوبة تحقيق هذا المبدا أثناء عملية التلخيص» بسبب الحاجة إلى حذف 
كثير من المعلومات أثناء عملية إعداد المستخلص» ما يؤدي إلى قصور فى تمثيل 
المستخلص للوثيقة. ويتم تقسيم المستخلصات إلى ثلاثة أنواع هي: 

Informative Abstracts ةqمںږleiلl المستخلصات‎ ٠ 

Indicative Abstrac)s المستخلصات الد لالية‎ ٠ 


Critical Abstracts المستخلصات النقدية‎ ٠ 


المستخلصات الإعلامية تحتوي على المعلومات الأساسية التي تعالجها الوثيقة الأصلية 
لذلك من الممكن أن تستخدم كبديل للوثيقة في بعض الأحيان. وبناء على المستخلص 
الإعلامي يمكن أن يقرر الباحث ما إذا كان في حاجة إلى قراءة الوثيقة الأصلية أم لا. 

أما المستخلصات الدلالية فهي وصف موجز للمحتوى المعرفي الذي تتضمنه 
2s‏ الوثيقة» مع استبعاد التفاصيل مثل المنهج والنتائج. لذلك لايمكن 
معاملة المستخلصات الدلالية على أنها بديل للوثيقة الأصلية» حيث يحتاج 
الباحث إلى الرجوع إلى الوثيقة الأصلية للحصول على التفاصيل التي لا تتضمنها 
المستخلصات الدلالية. 


المستخلصات النقدية لا تقتصر فقط على تمثيل المعلومات التي تشتمل عليها 
الوثائق» ولكنها تحاول أيضا تقييم تلك المعلومات والحكم على جودتها وصلاحيتها. 
وقدبدأت العديدمن قواعد بيانات الأدلة llyبرlھjı Evidance Based Databases‏ 
الاعتماد بكثافة على هذه الثوعية من المستخلصات من خلال خبراءيقومون بكتابة 
مراجعات نقدية عن الأبحاث في صورة ملخصات وانتقاء أفضل النتائج التي 
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توصلت إليها الدراسات ووضعها فى قواعد بيانات جديدة يطلق عليها قواعد بيانات 
ا ر الاو کے با اکر ماع ا اچاب کے کیرات م 
والتعليق النقدي على البحوث ومقارنتها بنتائج المختبرات. ٠‏ 

ويختلف هذاالنمط من أنماط الاستخلاص عن المغزى الأساسي من 
الاستخلاض الل يجب أن بكرن مرخ رغيا ومجردا من أي سيراك إلا تادر 
أو من جانب فقات تمتلك القدرة على الحكم النقدي في المجالات العلمية. 
لذلك لا يقوم أخصائي المعلومات بكتابة مستخلص نقدي بصفة عامة إلا إذا 
طلب منه ذلك. 


وگماد گر سابتقا قام العديد من الباحثين بمحاولات لإتتاج برامج للاستخلاص 
الآلي؛ إلا أن المنتج النهائي لتلك المحاولات لا يختلف كثيرا عن التلخيص الآلي أو 
الاشتقاق الآلنيء» اقرف ا استخلاصاً آلياً t0 strat‏ حیث تشتمل علی 
مجموعة من الجمل المفتاحية التي يتم اشتقاقها من الوثيقة الأصلية. 


Su" "2۲٤ التلخیص‎ 3.3.4.2 


هو عبارة عن إعادة صياغة لمجموعة النقاط الرئيسة التي تعالجها الوثيقة 
الأصلية» ويتم وضع الملخص إما في بداية الوثيقة أو في نهايتها. وعلى الرغم من 
التشابه الكبير بين الملخص والوثيقة الأصلية» إلا أنه لايغني عن الوثيقة الأصلية» 
حيث يفترض معد هذه النوعية من الملخصات أن القارئ سوف يتابع قراءة الوثيقة 
الكاملةء لأن هذا النمط عادة ما يفتقر إلى العناصر الأساسية اللازمة لفهم الوثيقة 
مثل الأجزاء الخاصة بالمعلومات المتعلقة والخلفيات المعرفية للموضوع والمنهج 
وآليات الوصول إلى النتائج.. الخ (1994,رعاس۸0). 


وقدتم في السنوات الأخيرة تطوير العديد من خوارزميات التلخيص الآلي 
للنصوص وخاصة النصوص الرقمية (2007, )[0١6s‏ ويعد التلخيص الآلي أحد 
المجالات النشطة التي يهتم بهاالباحثون في مجالات الذكاء الاصطناعي ومعالجة 
اللغة الطبيعية. وقد أطلق بعض الباحثين على المخرجات التي تنتجها خوارزمياتهم 
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مصطلح مستخلصات ا٥ط‏ 4؛ إلا نها لا تعد ملخصات آلية للوثائق الأصلية» 
ومع ذلك فإن أنظمة الذكاء الاصطناعي هي الوحيدة القادرة على تحويل حلم 
الاستخلاص الآلي إلى حقيقة يمكن إنجازها وهذه الخوارزميات لم يتم إنجازها 
بنجاح إلى الآن. ومن أهم العقبات التي تواجه إنتاج مستخلصات آلية» معالجة 
الدلالات وفهم الiنصرص j Semantic Porcessing and Text Understandi1g‏ 


خلال أنظمة التلخيص الآلي. 
3.3.4.3 الاشتقاقات ء†Ex†)ac‏ 


الاشتقاق هو عبارة عن جزء أو أكثر من الوثيقة يتم اختياره لتمثيل الوثيقة ككل» 
ولايمكن لتلك الاشتقاقات أن تمشل الوثيقة بشكل جيد؛ مع ذلك فهي مفيدة للقارئ 
الذي يحتاج إلى موجز لأغراض دراسة معينةء ولايمكن النظر إلى الاشتقاق بأي 
حال من الأحوال على أنه بدي للوثيقة الأصلية. على الرغم من أنه عادة مايتم النظر 
إلى الاشتقاق على أنه أقل من حيث الكفاءة وجودة التمثيل عن كل من الاستخلاص 
والتلخيص؛ إلا آنه يعتمد بصورة كاملة على النظم الآلية. فجميع أنظمة استرجاع 
المعلومات على الإنترنت بمافيها جوجل تعتمد كلياً على الطرق الآلية للاشتقاق. 

ومن الأساليب التي تم استخدامها من جانب نظم الاسترجاع على الإنترنت في 
الاشتقاق هو استخدام نموذج القطع كاومذاا۴ أو التوقف عند نقطة معينة عن إجراء 
اللأاشتقاق عندما يصل الجزء المشتق إلى نقطة القطع ۲١ذه۴‏ ٤ه‏ اا٤‏ التي تم تحديدها 
بخوارزميات النظام. لذلك فإن جودة عملية الاشتقاق الآلي تعد إحدى المشكلات 
المهمة التي يتم النظر إليهافي بحوث ودراسات هذه النوعية من النظم. 


> 3.3.5 الملخص الوافي للموقع (موم) 


يمكن وضع مختصرة عربية موازية للمصطلح ۸5S‏ وهي (موم) لتشير إلى 
مصطلح الملخص الوافي للموقع» والذي يعد أحد تطبيقات الجيل الثاني للويب 


ويستخدم لأغراض تمثيل المعلومات بصورة موجزة ومختصرة. 
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وبشكل أكثر تحديدأيتم استخدام موم ۸88 مع أشكال الملفات التي يُطلق عليها 
التجميع لأغراض التغذية للمعلومات المحدثة من مصادر متنوعة. ويمكن للأفراد 
المشتركين في هذه النوعية من الخدمات من خلال قارئ يطلق عليه برنامج التجميع 
Program‏ regatorع‏ ع ان پستقبلوا علی أجهزتهم الخاصة المعلومات المحدثة التي تتيحها 
برامج التغذيةء لذلك يمكن النظر إلى موم على نها خدمة إحاطة جارية في بيئة الويب» 
تقدم للمشتركين فيها ملخصاً للمعلومات الحديثة المتاحة من المصادر التي يهتمون بها. 


وإدراكاًللدور المهم لخدمة موم قام المطورون في اتحاد الشبكة العنكبوتية العالمية 
1° بتطوير إصدار جديد من موم» عندما توقفت شركة 48ء5 والتي طورت أول 
متصفح ويب بالرسومات عن دعم الإصدار الأول من قارئ موم الذي قامت بتطويره. 
نظراً لأن الإصدار الجديد من موم تم بناؤه بالاعتماد على معيار إطار وصف المصادر 
qiJlg Resources Description Framework- RDF‏ قامت ۷3٥‏ أيضا بتطويره كجزء 
من حركة الويب الدلالي التي يدعمها الاتحادء فقد تم تغيير استهلالية موم لتصبح R۸0۴‏ 
Site Summary‏ آي ملخص الموقع باستخدام إطار وصف المصادر» وذلك لتمييزه عن 
الإصدار السابق (2005,راآءK).‏ وتجدر الإشار إلى آنه يوجد مصطلح آخر مستخدم 


للدلالة على مفهوم موم وهو التلقيم الحقيقى اط - Really simple syndication‏ 
58 - والذي يعتمد على التقنية والأدوات نفسها. 
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وعندمقارنة موم مع غيره من طرق التلخيص التي تم تناولها في هذاالجزء» 
نجد أن موم يتم بطريقة آلية على الويب. وتلبي هذه الطريقة الآلية احتياجات 
قطاع عريض من المستفيدين على الويب الذين يرغبون في الحصول على 
المعلومات الحديثة التي تظهر في مجموعة من المواقع في مكان واحد. فقارئ 
الملخص الوافي للمواقع أو التلقيم المبسط للمحتوى يقوم بتجميع ۸88۲324٤‏ 
المعلومات الموجزة من مناطق معينة في مواقع الويب وعرضها للمستفيد في 
مکان محدد بموقعه. 


وتجدر الإشارة إلى أن جودة الملخص الذي تنتجه هذه الطريقة أقل بكثير من 
غيرها من طرق التلخيص مثل المستخلصات» حيث إن جودة عملية التمثيل لا تستند 
إلى معايير محددة في إعداد الملخص الوافي للموقع» ما يجعلها متضاربة في الشكل 
ومختلفة في البناء على عكس المستخلصات التي توجد معايير تحدد طريقة إعدادها 
وأشكال البناء الخاصة بها. 


ونظراً لأن التكشيف يعد أبرز نماذج تمثيل المعرفة وأكثرها استخداماً في البيشة 
الورقية والرقميةأيضةً فمن الضروري تسليط الضوء على أنواع الكشافات وطرق 
تقسيمها وبنائها ووظيفة كل منها كأدوات لتمثيل المعرفة. 
3.4 أنواع الكشافات 

يرى عبدالهادي (2005) آنه يمكن تقسيم الكشافات بناءً على طبيعة الوحدات 
المكشفة» نوعية المداخل المستخدمة» طريقة ترتيب المداخل» نضيف إلى ذلك آنه 
يمكن النظر إلى الكشافات أيضاً وفقاً لنظام التكشيف المستخدم إلى كشافات آلية 
وكشافات مميكنة وكشافات يدوية كماسبق وأوضحنا. 
3.4.1 تقسيم الكشافات وفقَاً لطبيعة المادة المكشفة 


تنقسم الكشافات وفقاً لطبيعة المادة المكشفة إلى خمسة أنواع أساسية هي: 
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3.4.1.1 کشافات الکتب 


Books Index 


يتم في تلك النوعية تكشيف المفاهيم والأعلام والمصطلحات الواردة في نصوص 
الكتب» وتلحق بنهايات الكتب» لكي تستخدم في الوصول إلى آي معلومة تفصيلية 
بالكتاب عند الحاجة. وعادة مايتم ترتيبها ترتيباً هجائياً منفصلاً لكل نوعية بحيث 
يكون لكل شكل كشاف منفصل (كشاف للأعلام» آخر للأماكن» ثالث للمفاهيم أو 
الكلمات المفتاحية)؛ أو ترتيباً شاملا يجمع كل هذه العناصر مجتمعة معا في كشاف 
واحد. ويستخدم هذا النوع من الكشافات في الكتب كما يستخدم أيضا وعلى نطاق 
واسع في معظم أنواع المواد المرجعية مثل الموسوعات» الكتب السنوية» الأدلة.. إلخ. 


3.4.1.2 کشافات المسلسلات 


Serials Index 


هى عبارة عن كشافات بمحتويات الدوريات والصحف والمجلات من مقالات 
را وغالباً ما ترتب هذه الكشافات ترتيباً هجائياً واحداً. ويعدهذاالنوع من 
الكشافات من أكثر الأنواع شيوعاً وأهمية» نظرأ لما مر به من تطورات بدأت باستخدام 
الحاسب الآلي في عمليات التكشيف» والبحث خارج الخط المباشر ثم البحث على 
الخط المباشر وأخيراالاسترجاع من خلال شبكة الإنترنت والشبكة العنكبوتية. 


3.4.1.3 كشافات الاستشهادات المرجعية 


Citations Indexes 


إذا كانت كشافات الدوريات تساعد على الوصول إلى مقالات الدوريات 
التي تم تكشيفها تحت رؤوس موضوعات أو كلمات مفتاحية تصف محتواها 
الموضرعى» فإن كشافات الاستشهادات المرجعية تساعد على الوصول إلى 
مقالات ارات ,8 للعلاقات التى تربط بينها من خلال الاستشهادات 
المرجحية. فاللانة الى كل بين المقالة المصدوة والأعسال الكى ت 


الفصل التالث 


الاستشهاد بها في هذه المقالة المصدرية تعني وجود رابطة خفية بين المفاهيم 
والموضوعات التي تمت معالجتها في المقالة المصدرية والأعمال المستشهد 
بهاء وهو الأساس الذي تقوم عليه فكرة كشافات الاستشهادات المرجعية. فقد 
استقى يو جين جارفين 64۲۷۵١‏ ٥1١1ع‏ فكرة كشافات الاأستشهادات المرجعية من 
فكرة السوابق القانونية المستخدمة في القانون الأمريكي. وتساعد هذه الكشافات 
على التعرف إلى الدوريات البؤرية» الأعمال البؤرية في تخصص ماء والمؤلفين 
البؤريين أو الأساسيين في أحد المجالات العلمية. فتكرار الاستشهاد بمؤلف 
معين في أحد المجالات يعني أن دراسات هذا المؤلف من الأعمال البؤرية في 
ذلك المجال الموضوعي. وسيتم عرض نماذج لتلك النوعية من الكشافات عند 
استعراض قضية التمثيل في نهاية هذا الفصل. 


3.4.1.4 كشافات النصوص 
Concordance Indexes‏ 

تتيح تلك النوعية من الكشافات تحليلات صرفية كاملة للمواد ذات الطبيعة الخاصة 
بت یکی ال ر رل إل کل جور الكلمات راا فى لك التع رص عة 
اا ي 6 اعرف الهاه ل اصرص اا ةو ااي 
المقدسة والقوانين والدساتير والاتفاقيات والمعاهدات والأعمال الأدبية البارزة.. الخ. 
وعادة ماترتب هذه الكشافات هجاتيا وفقا للمصطلحات الواردة فى النصوص متبوعة 
اماك ور دسا قي من الت رم إغداد هذه اأكصافات لكل لمات الكص درن 
تمييز. يستخدم هذاالنوع من الكشافات مع النصوص ذات القيمة الكبيرة» ويكون لكل 
كلمة في النص أهمية لا يمكن إغفالها. ومن أمثلة هذا النوع من الكشافات «المعجم 
المفهرس لألفاظ القرآن الكريم/ محمد فؤاد عبد الباقي»» و«المعجم المفهرس 
لألفاظ الحديث إعداد فنسنك» أي» تحقيق محمد فؤاد عبد الباقي». 

ويتميز هذا النوع من الكشافات بإمكانية البحث فيه باي كلمة في النص» ما 
يساعد على تحديد موضعها أو بيان موقعها ضمن جملة أو سياق معين. ويستخدم 
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أيضاً في الدراسات اللغوية والمعجمية حيث إن العديد من التفاسير اللغوية تعتمد 
على مثل هذا النوع من الكشافات في تجميع المعاني المختلفة لمفهوم واحد. 
ويعد هذا النوع من الكشافات من أصعب آنواع الكشافات في حالة النظم اليدوية» 
لكنه يعد من أسهل وأسرع آنواع الكشافات في حالة نظم التكشيف الآلي التي 
تعتمد على استخدام إمكانيات الحاسب الالي في تحديد مواضع الكلمات 
والجمل. فعلى سبيل المثال في حالة استخدام هذا النوع من الكشافات في 
تحديد عدد مرات ورود كلمة الجنة والنار في القرآن الكريم» ثم تحديد مواضع 
ورودهما سواء معاً أو بشكل منفصل. يقوم نظام التكشيف الآلي بإعراب عذيءه۲ 
للنص بالكامل بحثاً عن الكلمتين باستخدام أسلوب المضاهاة المضبوطة 8۴×٩۲‏ 
mt‏ - آي مضاهاة حرف بحرف - وعندما تتطابق كل الحروف مع بعضها بعضا 
يعرض نظام التكشيف الكلمة مصحوبة بالسياق مثل السورة ورقم الأية وغيرها 
من المحددات التي يمكن التحكم فيها قبل إجراء البحث. 


3.4.1.5 كشافات مواقع الإنترنت 


Internet Indexes 


يطلق على هذه النوعية من الكشافات آدوات تمثيل واسترجاع المعلومات المتاحة 
على الإنترنت. يوجد أربع آدوات رئيسة يمكن استخدامها في بحث الشبكة العنكبوتية 
هي أدلة الببحث ومحركات البحث» وما وراء المحركات» بوابات الويب. وسوف 
نتناول هذه الأدوات بشكل أكثر تفصيلاً في فصل مستقل للتعرف إلى طريقة بناء هذه 
ارات وز ابات عم اها نى الكمبف والفال واليجك والفرة. 


3.4.2 التقسيم وفقَاً لأنواع المداخل المكشفة 


تتنوع مداخل التكشيف بتنوع الوحدات المكشفة»ء والتي تحدد المدخل الملائم 
لترتيب التسجيلات التي تتضمنها الكشافات. وعلى الرغم من أن قضية الترتيب لم 
تعد بالأهمية التي كانت عليها قبل استخدام أنظمة التكشيف الآلية التي أصبحت 


الفصل التالث 


الأأساس الآن فى إعداد الكشافات» إلا أن بنية هذه النوعية من الكشافات كان لها 
آئر کر فى تطو رآ سالب اللك ف وة الكفافات الالة وقراعداليانات. ويمكن 
تقسيم الكشافات وفقا لنوعية مدخل التكشيف إلى: 


3.4.2.1 کشافات العناوین 


الكشافات انى ر كز عاي غفاوين الأعمال من كت و قالات واعمال 
مر اات: وقد اا أول شكال كشافات العناوين مع بداية استخدام نظام 
المصطلح الواحد 1-16۲۳«لا في إعداد كشافات التباديل الموضوعية للعناوين. 
فظهرت آنواع عدة من الكشافات التي تركز على استخدام المصطلحات الواردة في 
العناوين للدلالة على المحتوى الموضوعى للوثائق. ويعد كشاف الكلمات المفتاحية 
في Key Words In Context (KWIC) Jll‏ أبرز مثال لهذه النوعية من الكشافات. 
بالتالي فإن مصطلحات عناوين الوثائق تستخدم كمؤشر للدلالة على المحتوى 
الموضوعي للوثائق. كما تستخدم كمداخل لترتيب هذه النوعية من الكشافات. 


3.4.2.2 کشافات الموضوعات 


تعد هذه الفئة أشهر أنواع الكشافات وأكثرها انتشاراً واستخداماًء حيث إن قواعد 
البيانات الببلي ر جرافية المتخصصة فى المجالات الموضرعية المختلفةماهى إلا 
کا کے کرای چا ا مو ااا ات 
متاحة في صورة قواعد بيانات ببليوجرافية وقواعد بيانات للنصوص الكاملة التي 
تصدر عن الناشرين التالين: 

Elsevier - https://www.elsevier.com 

Springer — https://www.springer.com 

Wiley - https://www. wiley.com 

وغير هم مثل : ..«OVID, TAYLOR and Francis, EMARLD, SAGE‏ إلخ. 


وعلى المستوى العربي بدأت الكثير من الشركات العربية مع بداية الألفية الجديدة 
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في إنشاء قواعد بيانات بالمحتوى العربي في مختلف التخصصات. نذكر منها على 
سبيل المثال لا الحصر: 

1. دار المنظر مa: http://www.mandumah.com‏ 

https://www.almanhal.com :Jinll .2 

3. مكتية دبي الرقمية https://dd1.ae‏ 

4. إثراء المعارف الرقمية mصhttp://ethraad1.c0‏ 


5. مزر ذة http://www.e-marefa.net/ar‏ 


3.4.2.3 كشافات المؤلفين 

تعد قوائم الأسماء والأعلام الواردة في الأعمال العلمية والآدبية من الآدوات 
المهمة التي يحتاج الأفراد والمؤسسات إلى إبرازها. لذلك اهتمت العديدمن 
المؤسسات بإعداد كشافات بالمؤلفين والتي كانت تظهر في نهايات الكتب أو 
المواد المرجعية مثل الموسوعات» وترتب ترتيباً هجائياً وفقاً لأسماء المؤلفين 
المستشهد بأعمالهم الأدبية والعلمية في متن النص. ومع تطور منصات البحث 
الخاحة على الخ ط الماشرء آتاعحت تلك الات إمكائات الخت اسما 
المؤلفين للوصول إلى كافة أعمال مؤلف معين» كماهو الحال في قواعد بيانات 
الاستشهادات المرجعية التي سبق ذكرها. وبظهور وتطور تلك المنصات اختفت 
تقريباً كشافات المؤلفين المستقلة وأصبح الاعتماد بصورة أكبر على تلك المنصات 
في التعرف إلى أعمال المؤلفين وتقييم أدائهم العلمي والمعرفي. كما ظهرت 
آدوات جديدة في البيئة الرقمية تتسم بملامح المشابكة والتواصل بين المؤلفين 
والباحثين» عرفت بشبكات المؤلفين الاجتماعية والتي تم تطبيقها في القياسات 
البديلة كما سنوضح لاحقاً. وقد بدأت العديد من المؤسسات البحثية والأكاديمية 
آراء الاهتمام بإاعداد ملفات السمات الأكاديمية 0اا؟هاهإم-8 ليوفر بيانات كاملة 
و كافة الاين المتمين للك المؤمات. 


الفصل التالث 


ونظراً لأهمية دور المؤلفين ومشاركتهم العلمية والحاجة إلى تقييم أدائهم» ظهرت 
العديد من مؤشرات القياس التي تحاول وضع مقاييس رقمية لتقييم الإنتاجية العلمية 
للمؤلفين وأثرهم في المجالات البحثية. وتنقسم هذه القياسات إلى نوعين رئيسين: 


1ء 


وتعتمد تلك المقاييس على مؤشرات الإنتاجية العلمية وجودة الإنتاج العلمي 
الذي يتم قياسه من خلال معدلات الاستشهاد. وقد تم ابتكار العديد من المؤشرات 
لقياس الأداء العلمي للمؤلفين لعل أبرزها: 


كشاف ×14 8: وهو مقياس ابتكره العالم هيرش 1١ء‏ ليحدد درجة 
مساهمة المؤلف بناء على عدد المقالات المنشورة وعددالاستشهادات 
الى اة غلها ور قا لها الكتاف صل المزلف غلى كاف 
کی اوو کا لی جا ےا وی الخ کی 
الفا اا ر فلي سيل الها ل الاح عى كات اة 
إذا حصل 5 أبحاث من قائمة أبحاثه على 5 استشهادات على الأقل. ولإجراء 
عملية القياس بدقة يتم ترتيب قائمة الأبحاث ترتيبا تنازلياء وفقاً لعدد 
الاستشهادات. وتكون قيمة 1 تعادل قيمة الأبحاث N‏ التى حصلت على ١‏ 
من الاش ادات أو اكش ۰ 

مقياس 1«4٠×‏ 110: وهو مقياس يطبقه جوجل العلمي منذ عام 2011 لتحديد 
عدد الأبحاث التي حصلت على الأقل على عدد 10 استشهادات كمقياس 
لجدارة الأعمال» حيث اعتبرت أن حصول البحث على عدد 10 استشهادات 
مقياس جدارة» أما الأبحاث التى تحصل على عدد أقل من 10 استشهادات لا 
تدخل في قائمة التقييم. من ثم فمؤشر ×ل"1 10 1يعتمد على إحصاء عدد 
المقالات التي نشرها الباحث خلال فترة زمنية ثم إحصاء عدد المقالات 
الت ی تمل الم شر 1 الٹی حلت على 10 استشهادات عل الآقل: ولحل ہرز 
ا ها کاس سق وااو را 
كفاءة كل بحث على حدة. ويمكن من خلاله تقييم أداء الباحثين خلال فترة 
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زمنية» إلا أنه يفتقر إلى وجود دلالة واضحة لشكل مخرجات المؤلف بصفة 
nleمة .Author Contribution Shape‏ 


وعلى غرار هذين المقياسين تم ابتكار عدد آخر من المقاييس التي تحاول التغلب 
على بعض الصعوبات التي تو جد في المقياسين السابقين ومنها: ,×علہi G index, A۸‏ 
R۴ 06‏ ا و تة كل هته القاس غاي مط القباس تة المطيق فى 
بناء على مقياس للجدارة والاستحقاق الأكاديمى. 

اا. مقاييس بديلة 

ظهرت فكرة المقاييس البديلة على ید جاسون بریم ۳ء۲۲ 4800[ في عام 2010 
الذي كان طالب دراسات غلبا بجامعة تورث كارو ليشا بشبل هبل والدى نشر بحقا 
بعنوان st0ە؟ Mani‏ 4 :imetricsاA.‏ تستند هذه النوعية من القياسات إلى تحليل 
الويب الاجتماعى ط٥۷‏ 1ه1ءه5. يشتمل هذا المقياس على ثلاثة ملامح: 


الخمل ف ال 
_ الحاجة الماسة إلى قياسات جديدة وتوافر بيانات مهمة تدعم هذه القياسات 
- القياسات البديلة مرتبطة بأنشطة الاتصال العلمى 


وتعد القياسات البديلة امتداداً لحركة التجميع والمتابعة والتحليل للأنشطة العلمية 
بغرض التقييم والترتيب» ولا تقتصر على المواد التقليدية مثل الكتب والدوريات» 
ولكن تشمل أيضا العروض والملصقات والمحاضرات المسجلة والتعليقات 
والمدونات والتدوين الصوتي Pt‏ الفدیو هات والرسوم البيانية ومجموعات 
البيانات sكاعDatas.‏ 


والنقاش داخل وخارج المجتمع العلمي. ويوجد أربعة قياسات بديلة للمؤلفين 
يوضحها الشكل التالي: 


الفصل التالث 


قصة تأثير الموؤلف 


Impactstory Profile 


Plumx Sunbursts 
قياسات المؤلف‎ 1 
كلية الألف‎ 
Author Impact Level 
Faculty of 1000 


محددات هوية الباحثين 
Research Gate‏ 
Researcher ID‏ 
ORCID‏ 


Research Gate: https://www.researchgate.net 
Researcher ID: https://clarivate.com/products/researcherid 


ORCID: https://orcid.org 


4 3.4.2.4 کشافات الكيانات 


هي قوائم بأسماء الهيئات أو الأماكن أو المؤسسات أو العناصر الكيميائية والعلامات 
التجارية وغيرها من الكيانات التي ترد في متن الأعمال. ويهتم العديد من المؤلفين 
بإعداد كشافات بالمختصرات والاستهلاليات المستخدمة للدلالة على أسماء الكيانات 
الواردة في أعمالهم. كما توجد مجموعة أخرى من الكشافات ولكنها أقل انتشاراًء من 
المجموعة السابق ذكرهاء مثل كشافات المعادلات والتركيبات (الكيميائية والرياضية) 
كشافات التواريخ والأرقام» كشافات الأجناس والفغات.. وغيرها. 
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3.4.3 تقسيم الكشافات وفقاً لطريقة الترتيب 


ئو جد ثلاث طرق أساسية لث رتبب المواد فى الكشافات وغبرها من أدوات التمئيل 
والضبط المتاحة في شكل مطبوع أو رقمي» هي : الترتيب الهجائي» الترتيب المصنف» 
الترتيب القاموسى. 


3.4.3.1 الترتيب الهجائى 


توجد طريقتان أساسيتان بصفة عامة للترتيب الهجائي» الأولى تعتمد على الترتيب كلمة 
بكلمة ۷0۲١‏ ر8 4١إ۷0.‏ وفي هذه الحالة فإن كلمة مثل إهلة1۷ةS‏ 541 سوف تسبق كلمة 
مثل S۵۳0١‏ على أساس أن ١ه‏ كلمة منتهية. أما الطريقة الثانية فتعتمد على الترتيب 
حرف بحرف ۲ ا)1 ر8 1۲ا1 وفي هذه الحالة فإن 2ص Sand‏ سوف تسبق San Salvador‏ 
على اعتبار أن حرف ل يسبق في الترتيب الحروف الخاصة مثل المسافات وغيرها. كما أن 
كلمة مقل «استراتيجيةا سرف سبق «اسفراتيجيات سياسية) في نظام ترثيب كلمة بكلمة 
بينما تسبق «استراتيجيات سياسية) كلمة «استراتيجية! في نظام ترتيب حرف بحرف. 


3.4.3.2 الترتيب المصنف 


يعتمد الترتيب المصنف على تطبيق نظام التقسيم إلى فقات من خلال تطبيتق خط ط 
تصنيف المعرفة ومنها خطط التصنيف العامة مثل تصنيف ديوي العشري» العشري العالمي» 
مكتبة الكونغرس؛ أو تطبيسق نظام تصنيف متخصص. توجد طريقتان أساسيتان لإعداد 
الكشافات المصنفة» في الطريقة الأولى تظهر المداخل تحت أرقام مخصصة ودقيقة إلى 
حد كبير» وتشتق هذه الأرقام من خطة تصنيف عامة أو متخصصة. وهذه الطريقة كانت 
الطريقة الأساسية في إعداد وتجهيز المداخل الموضوعية» حيث ترتب المداخل الموضوعية 
رشا لخطة تصنیف وجqية Faceted Classification Scheme‏ عة وا للتطبيق في 
الكشاف. كما توجد بعض الكشافات المطبوعة التي تعتمد على نظم تصنيف عامة مثل 
خطة تصنيف العشر ي العالمي Universal Decimal Classification (UDC)‏ . 
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آما الطريقة الثانية لبناء الكشافات المصنفة فتستخدم في ترتيب المداخل 
الموضوعية بالكشافات» وتعتمد على اشتقاق الرؤوس الموضوعية من قواعد 
البيانات» ثم يتم تجميع المداخل تحت فئات موضوعات عريضة مرتبطة» بالتالي 
يمكن الوصول إلى روس الموضوعات الدقيقة من خلال الكشافات المساعدة 
حيث ترتب المداخل تحت فئات موضوعية عريضة وتحت كل فئة موضوعية توجد 
فقات ثانوية. وقد استخدم هذا النمط من الترتيب أيضاً في بناء أدلة البحث لمصادر 
الويب التي سوف نناقشها بالتفصيل فيما يلي» وعادة ما يكون ناتج عملية التكشيف 
والترتيب في حالة الاعتماد على الترتيب المصنف أحد أنواع الكشافات المعروف 
بالكشاف المتسلسل !۸de×‏ منCha.‏ 


Chain Indexing JuluuتnJl الكتاذ‎ ٠ 


يستخدم هذا النمط من أنماط التكشيف لمعالجة وترتيب رؤوس الموضوعات 
التي يتم اشتقاقها من خلال خطط التصنيف عامة أو متخصصة. والهدف من إعداد 
هذاالنوع من الكشافات ضمان توافر مداخل تحت كل مصطلح من المصطلحات 
المكونة للرأس المركب» فضلا عن ربط هذه المداخل في سلسلة بالمصطلحات 
الآعرض والأضيق منه في البناء الهرمي. معنى ذلك أن المصطلحات في الكشاف 
المتسلسل تظهر في شكل سلسلة تتتقل من العام إلى الخاص. 


بره لن مو رل ا ب الى مط الريب امسن في ادرا 
الهجائية» ويتميز باستخدام كل المداخل بكافة أنواعها من مؤلفين وعناوين 
وموضوعات في ترتيب هجائي واحد. ويتنوع الترتيب في هذه الحالة أيضاً ما بين 
الترتيب كلمة بكلمة أو الترتيب حرفاً بحرف. وعادة ما يستخدم الترتيب القاموسي 
فى إعداد الكشافات التجميعية كء×ءلہ! م۷اداuمصس‏ التى تتضمن مداخل المؤلفين 
للكتب والمصادر المرجعية مثل الموسوعات وأدلة العمل والكتب السنوية 


.. تیر J‏ فة. . ایا سا ية 


وصفحات الويب الصفراء .Ye1lw Web P5‏ کماتم استخدام هذه الطريقة في 
إعداد الفهارس القاموسية قبل ظهور الفهارس المتاحة على الخط المباشر. وهي 
نوع متميز من الفهارس اليدوية كانت ترتب فيه كل شكال المداخل في ترتيب 
هجائي واحد» مع إعداد الإحالات المناسبة وخاصة إحالة (انظر أيضا)» حيث 
إنه يمكن أن يكون لكل عمل على الأقل مدخل رئيس بالمؤلف وآخر بالعنوان 
وثالث بالموضوعات. بالتالي يتم إعداد حالات (انظر أيضا) إلى مواقع البطاقات 
الخاصة والموضوعات في ترتيب بطاقة المؤلف. ويساعد هذا النوع من الترتيب 
على سهولة الوصول إلى مصادر المعلومات» إلا آنه يعيبه كبر حجمه وصعوبة 
إعداده. ومع ظهور آدوات الببحث في البيئة الرقمية اختفت هذه النوعية من 
أساليب الترتيب اليدوي وظل مفهوم الترتيب مستخدماً في البيئة الرقمية في الأدلة 
والوكيبيديا والموسوعات الرقمية والكشافات التجميعية. 


3.5 قضية التمثيل 


تم استعراض الطرق المختلفة لتمثيل المعلومات وتصنيفاتها المتنوعة» والتي 
تشمل التكشيف الاستخلاص والملخصات والاشتقاقات والتقسيم إلى فقات 
والتوسيم الاجتماعي والملخص الوافي للموقع. وتعد هذه الأساليب أبرز الطرق 
المعروفة لتمثيل المعلومات في البيئة الرقمية» كماتم توضيحه مسبقا فإن هذه 
الطرق تختلف عن بعضهابعضا في مدى تمثيلها للوثيقة الأصلية. وعند ترتيب 
الفعات الخمس من حبك جره الل ياتى المكشف على قمة هذه الفكات باه 
الاستخلاص من حيث الأهمية والتطبيق أيضاء ويعد موم أقل هذه الفقات استخداماً 
ثم يآتي كل من التقسيم إلى فقات والتوسيم الاجتماعي في منطقة متوسطة بينهما. 
مع العلم أن التوسيم الاجتماعي بدأيزداد الاهتمام به في السنوات الأخيرة مع زيادة 
الاهتمام بتطوير الويب الدلالي وآدوات التفاعل الاجتماعي. وعلى الرغم من أن هذه 
المقارنة موجزة» إلا آنها تلقي الضوء على كيفية استخدام كل طريقة من طرق تمثيل 
المعلومات لأداء مهمة تيسير سبل الوصول إلى المعلومات. 
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3.6 الطرق الأخرى لتمثيل المعلومات 


تعد عمليات التكشيف والتقسيم إلى فقات والتلخيص.» أساليب تقليدية لتمثيل 
المعلومات؛ وإلى جانب هذه الطرق التقليدية توجد مجموعة من الأساليب الفريدة 
في نوعها من حيث آليات تمثيلها للمعلومات وفي طريقة تطبيقها واستخداماتها في 
تمثيل المعلومات والتي سيتم مناقشتها في هذاالجزء. 


Citations تIداھهشتسالا‎ 3.6.1 


تشير الاستشهادات إلى المصادر التي يرجع إليها المؤلف عند إعداده لبحث أو دراسة» 
ویستعین بها في کتابته العلمية. وقدعرفت في تاریخ العلوم بعلم Authenticity ill‏ 
الذي يهتم بتوثيق المعلومات ومصادرها وجودة تلك المصادر. والاستشهاد يعني بصفة 
عامة توثيق العلاقة بين كل أو جزء من الوثيقة المَستشهل بها 00٥1۴1۲‏ 4ا٣‏ وكل 
أو جزء من الوثيقة المستشهدة )1968 .Citing Document (Malin,‏ فمنذ أن ابتکر .ا9 
Eugene Garfield‏ فكرة الاستشهادات وطرق قياسها في العصر الحديث» وأسس معهد 
المعلومات العلميةء قام بنشر كشافات الاستشهادات المرجعية والتي تشمل: 

- كشاف استشهادات العلو ۾ .Science citation Index‏ 

.Social science citation Index ةzعlnîجi| كشاف استشهادات العلو م‎ - 


.Arts & Humanities citation [dex ùوiفllو كشاف الإنسانيات‎ 


وقد كان لظهور كشافات الاستشهادات المرجعية أثر كبير في تطوير أدوات قياس 
القيمة العلمية لمصادر المعلومات وتمثيلها بأرقام تدل على أهميتها العلمية من 
خلال معدلات الاستشهادات المرجعية بتلك المصادر. ولعل أهم هذه الأدوات تقرير 
اللاستشهادات المرجعية †ئ؟RepO Citation‏ اJ0urna‏ والذي يقوم بترتيب الدوريات 
العلمية وفقا لأعميعها السية و فيه ا المح ر فة من خلال عددمرات الاسشهاة 
بها. كما ظهرت في السنوات الأخيرة كشافات لاستشهادات المؤتمرات العلمية في 
مجالات العلوم والعلوم الاجتماعية والإنسانيات. 


." تیر Jı‏ فة: e‏ اا سا ية 


Scientific Conference Proceedings Citation Index 


Social Science and Humanties Citation Index 


ود اة تشر كشافات الا ادات المر عة في مف السات من القرن 
الماضي إلى الآن ويوجد جدل دائر حول أهمية الأشهادات المرجخة ومدى مصداقخا 
ای ت ا ا اما ا مات ر وکر می الك اا ساب ی کرب 
الرواد ومنحهم حقوقهم الأدبية في الأعمال المنسوبة إليهم إلى جانب التعرف إلى القيمة 
العلمية والمعر فة للرائق والمضادر والمؤسسات. ومذ ظهور كشاقات الاستشهادات 
المرجعية واستخدامها بدأت العديد من قواعد البيانات تهتم برصد الاستشهادات في 
صورة إلكترونية وإعداد إحصاءات دقيقة بمعدلات الاستشهاد العلمي لعل أهمها: 

ISI Web of Knowledge ةيملعلl شبكة المعرفة بمعهد المعلومات‎ ٠ 


تعد شبكة المعرفة إحدى أهم وأقدم قواعد بيانات التكشيف والاستشهادات المرجعية 
في العالم» حيث نشرت لأول مرة في صورة مطبوعة في عام 1964 تحت مسمى كشاف 
استشهادات العلوم Science Citation Index‏ وقد ابتکر ها الدکتور يوجین جارفیلد الذي 
افتعن فيما بعد المعهد القومي للمعلو مات «Institute of Scientific Information — 1S1‏ 
كما سبق وذكرناء لكي يقوم بخصر وتكشيف وإتعاج كشافات الاستشهادات المرجعية 
فيمابعد. وقدتم بيع عنكبوت المعرفة إلى مجموعة شركات رويترز» فظهرت تحت 
اسم مؤسسة تومسون رويترز 110۳80١ ۸٥۷٤۴۲١‏ والتي تتولى إصدار مجموعة مهمة 
من المنتجات التي تساعد على تتبع حركة النشر الدولي بصورة دقيقة. ومن آهم 
مخرجات هذه المؤسسة شبكة العلوم ۴"عiءS‏ ۴ه اW‏ 151 والتي تشتمل على عدد 
كبير من المخرجات العلمية الدولية التي يتم تكشيفها وتحليلها للتعرف إلى توجهات 
النشر الدولي في مختلف مجالات العلوم والمقارنة. وتشتمل قاعدة بيانات شبكة 
العلوم على المواد التالية: 


- 23 آلف دورية علمية 


- نحو 23 آلف براءة اختراع 
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- 110 آلاف أعمال مؤتمرات 
- 9آلاف موقع ویب 
- أكثر من 40 مليون تسجيلة لتلك المواد مجتمعة 


2 يمكن بحث كافة تلك المصادر بصورة كاملة من خلال صندوق بحث 


واحد ن 
٥‏ المستکشف ءuمہc›؟‏ 


ظهرت قاعدة بيانات 800۴08 كمنافس لقاعدة بيانات عنكبوت العلوم منذ عام 
7 وبدأت في تكشيف أكثر من 25 آلف دورية علمية. وهو ثاني أكبر قواعد بيانات 
الاستشهادات المرجيعة التي يمكن من خلالها التعرف إلى توجهات النشر الدولي 
وتأثير الدول في المجالات العلمية المخلتفة. وتتميز تلك القاعدة بتركيزها بشكل 
عميق على تقييم الباحثين وإعطاء بطاقة هوية كاملة لكل باحث» تحدد معدلات النشر 
التي قام بها وعدد المصادر التي اعتمد عليها وعددالاستشهادات التي حصل عليها 
وتاريخه المهني والآكاديمي» ما يجعلها أداة مهمة لتقييم الباحثين على المستويات 
المحلية والإقليمية والدولية. 


تتضمن مستخاصات واستشهادات مرجعية حول الإنتاج الفكري المنشور في 
الدوريات العلمية ومصادر الويب في جميع مجالات المعرفة البشرية. كماتساعد 
على التعرف إلى الإنتاج الفكري المنشور في أكثر من 15 لف عنوان متاح لدى أكثر 
من 4000 ناشر» كما تشتمل على أكثر من 12850 دورية أكاديمية» 500 دورية منشورة 
على الويب» ملخصات واستشهادات 700 مؤتمر علمي» 28 مليون مستخلص» 245 
مليون استشهاد مرجعي» 3 مليون براءة اختراع.. الخ. http://www.scopus.com/‏ 
scopus/home.url‏ 


وقد آدوت اماف ين المصترين الساقين (عتكبرت المع فة و امكف ) الى 
سا ت م رات را سالپ رخن جديدة لتقييم الأداء العلمي والقيمة البحثية 
لمصافر الل اتال احا 


." تیر Jı‏ فة: e‏ اا سا ية 


۰ معامل التأثير iJl Impact Factor‏ يعد الأداة الأساسية في تقييم الدوريات 
العلمية وجودة وكفاءة النشر العلمى فى مختلف آليات القياس العالمية. 


° کشاف ٥×‏ 1۵ 8 8 الذي أصبح يستخدم لكل من الأفراد والدوريات في 
عمليات التقييم وكفاءة آليات القياس. 


۰ تطبیم اتس المصدر لکل ,ةة Source Mormalized Impact Per Paper-‏ 
.S1۴‏ وهو عبارة عن مقياس لمعدلات الاستشهاد بحسب عدد مرات 
الاستشهاد بكل مقالة مع الأخذ في الاعتبار النوع في معدلات الاستشهاد 

من مجال إلى آخر. 


وعلى الرغم من الاختلافات بين التخصصات من حيث فرص الاستشهادء 
والمؤشرات التي يتم على أساسها تحديد الأهمية العلمية وفقا لعدد الاستشهادات إلا 
أن الدافع وراء الاستشهاد بأعمال الآخرين قد يختلف من باحث لآخر. ويمكن النظر إلى 
الاستشهاد على آنه اختيار من جانب الباحث لمجموعة من الوثائق تمثل بحثه» وعملية 
التمفل ثأخذ فى هذه الحالة شكل الأستشهادات بدلا من بدائل الرثائق التقليدية شل 
المستخلصات» ر الكشاف. فالاستشهادات عبارة عن بيانات ببليوجرافية مثل 
المؤلف أو المؤلفين والعنوان وبيانات.. الخ. وتعبر عن وثائق تم الاستشهاد بهاء بمعنى 
أنه لا توجد حاجة إلى بناء وصيانة أدوات أخرى مثل المكانز» وخطط التصنيف لأغراض 
تمثيل المعلومات» حيث يكتفي بالبيانات الببليوجرافية لكي تعبر عن الوثيقة. 


وتعتمد عملية الأاستشهاد على قيام المؤلف باختيار مجموعة من الوثائق يستشهد 
بهالكي تعبر عن وثيقة من خلال قائمة المصادر sعع«٥إ؟R»‏ من ثم فهو يقوم 
بعملية التمثيل بنفسه. وقيام المؤلف بهذه العملية يعني التخلص من دور الوسيط في 
عملية التمثيل» مايكون له تأثيرات إجابية وأخرى سلبيةء لعل أبرز التأثيرات الإيجابية 
أن المؤلف هنا يقوم بدور الكشف وهو على دراية أكبر بالوثيقة وليس بحاجة إلى 
بذل جهود إضافية لتفسير الوثيقة الأصلية» أما التأثير السلبي فيرجع إلى آنه لايوجد 
تفسير واضح لأسباب الاستشهاد بوثيقة ما وعدم الاستشهاد بأخرى. 
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ومن الأمور التي تلير الكثير من التساؤلات حول الاستشهادات كأداة لتمثيل 
المعلومات هو مدى التغخطية وحدود التغخطية لقواعد بيانات الاستشهادات. ومع 
ذلك فإن الباحثين في حاجة ماسة إلى استخدام تلك المصادرء نظراً لأن بناء قاعدة 
بيانات جديدة أمر في غاية الصعوبة ويستغرق وقتاً طويلاً. كما أن عملية تكشيف 
الا هات اتر جي لا الي أن مر دة غاا ار ءاي الك تەن 
الممكن ميكنة العملية بالكامل ودون تدخل من جانب البشر» والذي يبدو أنه لا 
يمكن تحقيقه مع الأساليب الآخرى لتمثيل المعلومات. 


3.6.2 تکشیف سلاسل الحروف 


Strings Indexing 


السلاسل عبارة عن مجموعة من الجمل والعبارات التي يتم تكشيفها لتمثيل وثيقة 
ما. وتوجد أنماط متعددة لتكشيف السلاسل تجمعها كلها خاصيتان أساسيتان هما: 


SS .1‏ وثيقة ما. 


ا : 

لذلك» يمكن اعتبار تكشيف الحروف أحد آنماط الكشافات الآلية التي تم وصفها 
اقا وتك كشافات الكلمات المفتاحية Key Words 1" ٤0 7te×‏ احد أبرز نماذج 
g Preserved context index system - PRECIS‏ نظام تكشيف العبارات المتضمنة 
.)Nested Phare Index system (NEPHIS‏ وفی هذین النظامین يقوم المكشف ا 
بتحديد سلسلة حروف في صورة عبارة أو جملة للتعبير عن الوثيقة» ثم يتم تكشيفها 
كلمة بكلمة من خلال النظم الآلية. ففي نظام P۸٤8٥158‏ يتم إعداد شبه مستخلص 
يتم تكشيفه باستخدام الكلمات المفتاحية الواردة فيه» ویعتمد نظام N۲818‏ على 
ق ثيقة للدلالة عليهاء ثم يتم تكويد 
هذه السلاسل لتحديد المصطلحات التي تصلح أن تستخدم كلماتِ مفتاحية لكي يتم 


.. تیر J‏ فة. . ایا سا ية 


توظيفها كمداخل بالكشافات. وبناء على ذلك فإن الجزء الآلى فى عملية تكشيف 
السلاسل يمكن أن يتم معالجته آلياً بسهولة وكفاءة كبيرة. . 

ويساعد التكامل بين التدخل البشري في اختيار العبارات والجمل الممثلة 
للوثائق مع استخدام النظم الآلية في أداء الجزء الميكانيكي في العملية» على 
جعل تلك العملية تحمل الكثير من المزايا والجاذبية في تمثيل الوثائق. فهي من 
ناحية تحافظ على جودة عملية التكشيف نظراً للتدخل البشري في الاختيار الدقيق 
للعبارات والجمل التي تمشل الوثائق» ومن ناحية أآخرى» فهي تمنع أو تتخلص من كل 
الإجراءات المملة وغير الفعالة» والتي لا تساعد على تحقيق الاطراد في التكشيف 
بالنظم اليدوية من خلال الاعتماد على آلية موحدة بالنظم الآلية. لذلك فإن التطور 
السريع في المعلومات الرقمية سوف يؤدي إلى انتشار استخدام النظم الآلية في 
تمثيل المعلومات وفي استرجاعها أيضا. 


3.7 ملخص للاتجاهات الأساسية فى تمثيل المعلومات 

اشتمل هذا الفصل على شرح مفصل للطرق والأساليب المختلفة لتمثيا 
المعلومات ويوضح الجدول 2.1 الاتجاهات الأساسية التي تمت مناقشتها في هذا 
الفصل» سواء من حيث نوع التمثيل (استخدام لخة مضبوطة أو حرة في التكشيف) 
إلى جانب طريقة الإنتاج وكل طريقة من هذه الطرق لها مزاياها وعيوبها. ويشير إلى 
آنه عند اختيار طريقة معينة لتمثيل المعرفة فسوف تقوم بتحقيق ما يلي:- 

1. التمييز بين المداخل المختلفة. 

2. تحديد المداخل المتشابهة. 

3. إعداد وصف دقيق للمداخل. 

4. إزالة أو تحليل حجم الغموض عند التفسير. 

وبالطبع لا يمكن لطريقة واحدة أن تحقق كل المتطلبات اللازمة لعملية التمثيل» 
حيث إن إحدى نقاط الضعف في طريقة ماء قد تكون ميزة كبرى في طريقة 
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أخرى. لذلك فالتكشيف وحده مثلاً من الممكن أن يوضح الموضوعات المحددة 
التي تعالجها الوثيقة» إلا أن المستخلص يوضح مضمون الوثيقة ككل. لذلك فإن 
التعددية فى الأساليب والطر “a Methodological Pluralism J‏ أفضل الوسائل 
لمل المعومات بدفة ر ات فالمرج بين طرق الف ل المخافة ثل الصيف 
والاستخلاص والتكشيف والتوسيم يمكن أن يحقق العديد من المزاياالتي تفوق 
استخدام طريقة واحدة. 


ويوجد تطور سريع في استخدام الأساليب الحديثة المصاحبة للجيل الثاني للويب 
الذي يعتمد على مشاركة المستفيد في عمليات التطوير والبناء مشل التلخيص الوافي 
للمحتوى أو التوسيم ۴585S X28‏ وذلك بغرض تحقيق الاحتياجات الجديدة 
لتمثيل المعلومات في العصر الرقمي. 
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الفصل الرايع 


مصادر البيانات 


بنظم تمثيل المعرفة 


4 4 مقدمة 


يتناول هذا الفصل مصادر البيانات المرتبطة بعمليات تمثيل المعلومات والمعرفةق 
حيث سيتم مناقشة آنواع البيانات وفئاتها والميتاداتا وطرق تمثيلها والنصوص الكاملة 
والبيانات المستخدمة فى تمثيل الوسائط المتعددة. 


4.1 أنواع البيانات 


يتم تقسيم البيانات إلى ثلاثة ة أنواع أساسية هي كالتالي : غير مlaaة «Unstructured‏ 
شبه مهيكلة »semis)۲ ۲e4‏ مھيکلة ٥»۲۵۵‏ ۲ء (محمد وآخرون» 8.. ولکل نوع 
من تلك الأنواع الثلاثة ة إطار تحدده الوظائف التي يسعى لتحقيقها . تظهر البيانات 
غير المهيكلة في صورة غير نمطية ليس لها شكل أو حجم محدد» حيث إنها كيانات 
المهيكلة في صورة نمطية من خلال أطر محددة» فهي عبارة عن بيانات لها نمط 
ثابت بحيث يمكن تخزينها في قاعدة بيانات وكل عنصر بيانات منها له شكل وإطار 
نمطي مميز. وسيتم فيما يلي مناقشة الأنواع الثلاثة للبيانات. 


4 1 البیانات غير المهيكلة 
Unstructured Data‏ 
تز هة التوعية من اليانات انها ليس لها اء آ و نط أو شکل انت كما 
المهيكلة البيانات التى ترد فى النصوص وملفات الفيديوء الرسائل الإلكترونية» 
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العروض التقديمية» التعليقات على صفحات التواصل الاجتماعي» الصور.. الخ. 
فعلى سبيل المثال أي صفحة ويب يتم إعدادها بلغة 111 تعد مثالا واضحا 
للبيانات غير المهيكلة. وعادة مايكون من الصعب تخزين هذه النوعية من البيانات 
في قاعدة بيانات مهيكلة» إلاإذاتم وضعھا كکيانات ثنائية کېرé Binary Large)‏ 
B8‏ ) ءا زدا0» وعلى الرغم من أن البيانات غير المهيكلة قد يكون لها في بعض 
الأحيان شبه هيكل أو بنية كما هو الحال في رسائل البريد اللإلكتروني التي يكون لها 
عنوان مرسل ومستقبل» وموضوع.. إلخ» كما أن صفحات الويب أيضا تشتمل على 
مجموعة من الأكواد المحددة مسبقاًء إلا أن المعلومات لايتم تخزينها سواء في جسم 
رسالة البريد الإلكتروني أو في متن صفحة الويب بطريقة يمكن من خلالها تصنيف 
المعلومات بشگل رقا اا الإلكترونية أو قواعد البيانات المهيكلة. 


4 4.1.2 البيانات شبه المهيكلة 
Simi Structured Dta‏ 


تقع تلك النوعية من البيانات في منطقة وسط بين البيانات المهيكلة والبيانات 
غير المهيكلة. وهي بيانات منتظمة إلى حد ماء» من حيث المحتوى» ولكنها غير 
منتظمة في هيكلها بصورة كاملة وصارمة»ء كما هو الحال في البيانات المهيكلة. 
وتشتمل على بيانات غير منتظمة يتم ترتيبها وفقاً لأساليب بناء محددة مسبقاًء ما 
يساعد على وصفها وفقاً لخصائص محددة تسمح بالبحث فيها باستخدام آليات 
عامة ولخدمة أغراض عامة. 

وعادة مايتم تنظيم البيانات شبه المهيكلة في صورة كيانات» بحيث يتم تجميع 
الكانات المشايهة ا إلا آنه لیس شرطا آن قحسل تفس الائات سحددات 
متشابهة» كما أنه ليس من الضروري أن يتم ترتيب محددات البيانات في نفس 
المجموعة أو الحقول. 


ومن أبرز أمثلة البيانات شبه المهيكلة السير الذاتية التى لايوجد لها شكل نمطى 
أو معياري. فمن الممكن أن يبدا أحد الأشخاص سيرته الذاتية بعرض الوظائف 
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السابقة التي شغلهاء ثم يعرض الشهادات التي حصل عليه» ثم الأبحاث التي قام بها. 
ويمكن لشخص آخر أن يبدا سيرته الذاتية بالشهادات التي حصل عليهاء ثم يعرض 
الوظائف التي شغلهاء ثم يعرض المهارات والخبرات» ولا يخصص جزءا للأبحاث 
والدراسات» بينما يهتم الأول بوضع جزء خاص للبحوث والدراسات. من هنايمكن 
القول إن البيانات شبه المهيكلة عادة ما تضع البيانات في عناصر بيانات دون تحديد 
صارم لمحتوى وهيكل وترتيب البيانات. 


وتعد لخة التكويد الموسعة" ۷1× آبرز وسيلة لوضع البيانات شبه المهيكلة 
في صورة نمطية» حيث إنها معيار واقعي (مصطنع) (٥13١10‏ يستخدم في وصف 
الوثائق المتفقة في بعض العناصر وفي شكل البناء» مايجعل منها نموذجا دوليا 
تال البانات على الريب وين سات الأعال راض له الكرية الموسة 
عملية بناء وتطوير الوثائق شبه المهيكلة» والتي تشتمل على كل من بيانات الميتاداتا 
والنصوص ذات الشكل شبه النمطي. ٠‏ 

ويتم تحديد بيانات الميتاداتا باستخدام أكواد لغة التكويد الموسعة. من ثم فإن 
لغة × توفر طريقة واضحة وظاهرة لمعالجة البيانات شبه المهيكلة» حيث تعتمد 
تلك اللغخة على محددنوع الوثائق ^ 12( أو 82× كنماذج لتعريف البيانات شبه 
المهيلكة وعرضها باستخدام اللغة. 


4.1.3 البيانات المهيكلة 
Structured Data‏ 


البيانات المهيكلة هي عبارة عن بنيات صارمة من حيث الشكل والحجم» 
ويتم وصف كياناتها بمحددات ثابتة ومحددة» ويتم تنظيمها في صورة تسجيلات 


XML: eXtensible Mark Up Language (1) 
DTD - Document Type Defiati0ص‎ ةقqigئl حدد نوع‎ )2( 
(XSD) XML Schema Definition (3) 
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البيانات المهيكلة في حقول البيانات التي تستخدم في وصفهاء ويتم تجميع 
وتنظيم البيانات في صورة كيانات تساعد على تجميع البيانات المتشابهة فى 
مجموعات باستخدام العلاقات كص0ناةاR‏ و الأقسام 6‰ع.. وتحمل الکيانات 
المعفابهة فى فس المعحددات بحت تشابه كل الكيانات التي تضمها مط رة 
وصف البيانات ١١1۳ء8‏ في شكل البيانات» ويكون لها طول محدد مسبقاً وتتبع 
ترتيباً موحداً. وتعد البيانات المهيكلة من أوائل أنواع البيانات التي تم استخدام 

وقد تم تطوير قواعد البيانات العلائقية لبناء مستودعات بتلك النوعية من البيانات 
منذ المراحل الأولى لميكنة العمل في المؤسسات. وفي الآونة الأخيرة بدأت أنظمة 
أكثر تطور [ مثل إدارة علڻاقlت‏ lاnalنIء Customer Relationship management‏ 
وتخطيط موارد llشركlٽ Enterprise Resource Planing (ERP)‏ ونظم إدارة 
المحتوى )€MS( Content management sرsاع ١‏ تعتمد على البيانات المهيكلة 
کنموذج أساسى لمعالجة بياناتها. 


وتجدر الإشارة إلى أن عملية تمثيل البيانات في نظام استر جاع المعلومات تتعامل 
مع ثلاثة أنواع أساسية من البيانات وهي: الميتاداتا بأنواعها المختلفة والنصوص 
الكاملة» والوسائط المتعددة. وفيما يلي سيتم مناقشة آلية التعامل مع كل نوع من 
هذه الآنواع والتحديات التي تواجه عملية التمثيل والحلول المتاحة لذلك. 
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تم صك مصطلح الميتاداتا لأول مرة في عام 1990 للإشارة إلى عمليات وصف 
المعلومات الرقمية المتاحة من خلال شبكة الإنترنت» ما أدى إلى ظهور العديد من 
معايير الميتاداتا التي تم تطبيقها في تمثيل وتنظيم مصادر المعلومات المتشابكة. 
ثم توسع استخدام المصطلح بصورة كبيرة ليشمل كل ممارسات تمثيل وتنظيم 
المعلومات» خاصة مع زيادة الاعتماد على شبكة الإنترنت حتى ضحت المنصة 
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الرئيسة لإنتاج وتمثيل وتنظيم وإتاحة المعلومات الرقمية منذ نهايات القرن العشرين 


(عبد الهادي» محمد» 2015). 


4.2.1 مفهوم الميتاداتا 


يمكن تعريف الميتاداتا بأسلوبين مختلفين؛ الأول ضيق في مجاله» حيث يركز 
على المعلومات الرقمية ويشير إلى وصف مصادر المعلومات الرقمية والمتشابكة 
باستخدام نموذج معياري مثل معيار (دبلن المحوري ١۲هء‏ «نااا0) والذي تم 
إعداده خصيصاً لهذا الغرض. والتعريف الآخر أوسع في تغطيته» حيث يشمل كل 
عمليات تنظيم المعلومات (الفهرسة» التكشيف» التقسيم إلى فقات.. الخ)» والتي 
يتم إعدادها لأي نوع من أنواع الوثائق سواء بالطرق التقليدية أو غير التقليدية. وفي 
هذا السياق يمكن النظر إلى بيانات الفهرسة التي يتم إعدادها باستخدام قواعد 
الفهرسة مثل قواعد الفهرسة الأنجلوأمريكية أو قواعد وصف وإتاحة المصادر أو 
خطة تصنيف ديوي العشري أو الفهرسة المقروءة آلياً باستخدام شكل الاتصال 
)MARC (Machine Readable catalog‏ على انها جميعها نظم ميتاداتا (عبدالهادي 
& میخمكڭ 2015): 


ومن الممكن أن يتم إعداد بيانات الميتاداتا من خلال المؤلف أو منشى الوثيقة أو 
آخصائي الميتاداتا أو مدير المستودع أو جهة خارجية تعمل کطرف ثالث ۴2۲٣,‏ اط1 
.))Dempsey & Heery,1998‏ وأحيانا يتم زرع بيانات الميتاداتا في صفحات الويب 
باستخدام كو اد لغة النصرص illlقة .Hypettext Markup Languege - HTML‏ 
ويرى وول (۷001,1998) أنه على الرغم من أن الميتاداتا تتيح نموذجا فعالا لوصف 
وتمثيل المعلومات الرقمية المتاحة فى بيئة الإنترنت» إضافة إلى الأنظمة التقليدية 
مغل التصنيف والفهرسة والتكشيف؛ إلا آنها فى الحقيقة امتداد لهذه الأنظمة التقليدية. 
فكما شرا سايقاً إلى أن الطرق القلدية لاا ا ادر لار اتا ا 
المتاحة على الإنترنت» نظرا للملامح الخاصة التي تتميز بها تلك المصادر والتي 
سيتم عرضها في الجزء التالي. 
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4.2.2 ملامح مصادر المعلومات الرقمية المتاحة على الإنترنت 


تتميز مصادر المعلومات الرقمية بمجموعة من الملامح الخاصة التي تميزهاعن 
المصادر المطبوعة تشمل (محمد» 2013): 


أنها تتطلب توافر تجهيزات خاصة تشمل المكونات المادية والبرمجيات 
اللازمة لعرض المحتوى الرقمي. 

أن الشكل ۴٠۳١۵‏ الذي يتم تسجيل المعلومات الرقمية عليه يتغير بصفة دائمة 
كنتيجة لسرعة تحديث المكونات المادية والبرمجية» مايتطلب معه إجراء 
تهجير للبيانات M۲٥١‏ ة2 من الشكل القديم إلى الأشكال الحديثشة 
حيث إنه كثيرا ما يحدث عدم توافق بين الإأصدارات المختلفة لنفس البرنامج» 
وتصبح قضية التوافق أكثر سوءاعندمايتم تجميع المعلومات الرقمية باستخدام 
برنامج لتجميع النصوص وآخر للأشكال والجداول وثالث للصور.. إلخ. 
يتم بناء مصادر المعلومات الرقمية باستخدام نمط البناء المعتمد على الهيكل 
فائق الربط ٥۲ںا‏ »اء امم ر8 والذي يختلف تماماعن البناء المسطح Flat‏ 
eاStuetu‏ للمصادر المطبوعة» مايجعل من نمو المعلومات وترابطها أمرا 
من الصعب التحكم فيه. وقد ساعد التقدم الكبير في تطبيقات الإنترنت على 
تيسير عمليات التواصل والمشاركة بين البشر» لكن ذلك نتج عنه عدم وجود 
منظومة محكمة لضبط جودة المعلومات والذي ينتج عن الفيضان الهائل من 
المعلومات المتنوعة من حيث مدى جودتها وإمكانية الاعتماد عليها. لذلك 
يجب تطبيق طرق متنوعة لتنظيم وتمثيل مصادر المعلومات الرقمية تتوافق 
مع طبيعة تلك المصادر» حيث إن الأساليب التقليدية وخطط التصنيف 
وقواعد الفهرسة الأنجلوآمريكية» والفهرسة المقروءة آلياء تم تطويرها قبل 
ظهور هذا الكم الهائل من المعلومات الرقمية وتم تصميمها في الأساس 
لوصف وتمثيل مصادر المعلومات المطبوعة. ومن ثم يمكن القول إن 
الميتاداتا تم تطويرهالكي تحل مشكلة تمثيل مصادر المعلومات الرقمية التي 
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يتم تصميمها بالاعتماد على الربط الفائق» ويتم تغيير محتواها بصفة دائمة» 
إضافة إلى آنها غير متوافقة في جودتها وهائلة في حجمها. 


4.2.3 نماذج لمعايير الميتاداتا 


على الرغم من أن مصطلح المتياداتا هو مصطلح جديد في مجال تمثيل 
المعلومات» فقد تم تطوير عدد كبير من معايير الميتاداتا منذ نهاية القرن الماضي 
وجار تطوير غيرها من المعايير» ويعد كل من معيار دبلن المحوري وإطار وصف 
lلnصsiر Resourse Description framework (RDF)‏ آهم النماذج المستخدمة في 
هذا الاإطار (عبدالهادي & محمد 2015). 


وكما أشرنا من قبل» نشأت معايير الميتاداتا أساساً بغرض وصف وتنظيم 
المعلومات في البيئة الرقمية. ومع الآخذ في الاعتبار طبيعة مصادر المعلومات 
الرقية وماد ر الائرتت. وفى هذا الإطار تو جد عة من القساؤلات الاأساسة 
التي تتا إلى إجابات واضحة فس كالقالى؛: 


4.2.4 أهمية الميتاداتا في البيئة الرقمية؟ 


تعتمد عمليات تمثيل المعرفة في البيشة التقليدية لمصادر المعلومات المطبوعة على 
أعداد تسجيلة ببليوغرافية تشتمل على عناصر الوصف لكل مصدر من مصادر المعلومات» 
سواء كان بمجموعات مكتبة معينة أو بقاعدة بيانات. ويتم تنظيم تلك التسجيلات كبدائل 
لمصادر المعلومات تستخدم في عمليات البحث والاسترجاع» إلا أن الممارسة نفسها غير 
قابلة للتطبيتق مع المعلومات الرقمية المتاحة على الإنترنت للأسباب السابق ذكرهاء لذلك 
ظهرت مجموعة من التساؤلات تتعلق بتمثيل وتنظيم مصادر المعلومات الرقمية. 

السؤال الأول يتعلق بشكل التمثيل والقواعد التي يتم استخدامهافي عمليات 
التنظيم والوصف» وحيث إن إعداد بديل تقليدي للمصدر الرقمي» كما هو الحال 
في المصادر المطبوعة لم يعد حلاً مناسباًء فما هو الشكل الملائم لتمثيل المصادر 
الرقمية والقواعد التي يجب تطبيقها؟ 
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كما ظهر سؤال آخر مرتبط بالمشكلة نفسهاء وهو من سيقوم بإنشاء الميتاداتا؟ 
فى البيئة الرقمية وخاصة الإنترنت. فالعمر الافتراضى للمصدر الرقمى يعتمد بصورة 
كبيرة على إتاحه وتوافر التكنولوجيا اللازمة لتشغيله» سواء كانت مكونات مادية أو 
برمجية والمستخدمة فى إنشائه أو إتاحته. 


والسؤال الثالث في هذا الإطار مرتبط بالتطور السريع لتكنولوجيا المعلومات 
الذي يصحبه ضرورة التأكد من أن المصدر الرقمي بمجرد وصفه يمكن الوصول 
إليه واسترجاعه خلال العمر المتوقع له» ففي بيئة مصادر المعلومات المطبوعة» يظل 
النحترى اها دون تغيير» وأي تغيير يأآخذ شكل إصدارة جديدة. أما في البيئة الرقمية 
فإن المحتوى الخاص بكل وثيقة من الممكن تغييره وبشكل دائم» من ثم لايمكن 
التمييز بين اللإصدارات المختلفة بالتالي كيف يمكن التعامل مع الطبيعة الديناميكية 
لتلك المصادر عند إعداد الميتاداتا الخاصة بها؟ 


وكماذكرنا سالفا يوجد العديد من معايير الميتاداتا التي تستخدم في تمثيل 
الكيانات الرقمية في بيئة الإنترنت» وفي الوقت نفسه توجد المعايير التقليدية التي 
تم استخدامها في تمثيل المعلومات عبر العصور مشل قواعد الفهرسة ونظم التحليل 
معايير الميتاداتامع غيرها من معايير الوصف سابقة الذكر. 


وقدناقش کل من ديمبسي وهيري )1998 )Dempsey & Heery,‏ هذه القضية وأشارا 
إلى أن مجتمع المعلومات يسعى إلى تحقيق التكامل بين البيئة التقليدية والبيئة الرقمية من 
خلال ابتكار معايير أكثر شمولا تستطيع الربط بين المصادر في البيثتين. ولعل إحدى هذه 
المحاولات هي تجربة شبكة" ء” 0٥1٤‏ لتطوير نظام ديوي العشري باستخدام أداة مثل 
مWordsmit‏ والتي تقوم باشتقاق المفاهيم الجديدة والمستجدة والمصطلحات الناشئة من 
النصوص الرقمية وربطها بخطة تصنيف ديوي العشري (6062,1997 - م«۷121). كما أن 


OCLC - Online Computer Library Center (1) 
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أبرز جهود التطوير في هذا الاتجاه هو تطوير معايير وصف المصادر وإتاحتها ٤٤إResr0u‏ 
and Access‏ ionاPescrip‏ التي تسعى إلى وضع آلية وصف جديدة لمصادر المعلومات 
تراعي متطلبات الوصف في البيئة الرقمية والتقليدية على حد سواء» كما تراعي متطلبات 
الربط بين مصادر المعلومات بصفة عامة .)W318,2007(‏ 


وإضافة إلى كل ماذكر سابقاء تبقى قضية التشغيل التبادلي إحدى أهم القضايا 
التي تحظى بالاهتمام في الوقت الحالي (2008),راعا۲ة8 & ء۷1٥‏ ۸. ويشير التشغيل 
التبادلي إلى قدرة أكثر من نظام؛ لكل منها منصته وواجهة مستفيدين وبنية وهيكل 
بيانات خاص به» على تبادل ومشاركة البيانات بأقل درجة ممكنة من فقدان المحتوى 
أو ضعف الأداء الو ظيفي (1998 .)Z1۸۸6,‏ 


وقد ناقش کل من زینج وتشان (2004 ٤۲4١,‏ ج ع«Z6)‏ قضية بناء أدوات التشغيل 
التبادلي بنظم إدارة المعرفة التي عادة ماتستخدم معايير ميتاداتا متنوعة. ومن الواضح 
آنه ليس من السهل تحقيق التشغيل التبادلي» على الرغم من الجهود الكبيرة التي 
نذلت فن هذا الاتجاه. علاوة على ذلك فان کل معیار من معايير الميتاداتا له ملامحه 
الخاصة وقضاياه المستقلة. فعلى سبيل المثال عند التعامل مع محدد الكيان الرقمي 
تخصیص المحدد؟ هل یجب تحدید آکثر من محدد کیان رقمي لکل شکل جدید او 
إصدارة جديدة من نفس العمل؟..إلخ. 


وتجدالإشارة إلى أن الأسئلة التي تم طرحهاهنا ليست بأي شكل من الأشكال 
شاملة لكل التحديات التي نواجهها عند التعامل مع قضية تمثيل البيانات الرقمية في بيئة 
الإنترنت بالاعتماد على معايير الميتاداتا. كما آنه لا توجد خطة للتعامل مع تلك التساؤلات 
والاهتمامات وتو جد العديد من الممارسات الجديدة في تطبيق وإعداد المبتاداتا للمصادر 
الرقمية مثل الوصف الانتقائي Selective Description‏ جداول التحديث والأرشفة 
المخططة ع«ز۷طء۸ ١٥««ها۴.‏ ومع ذلك يمكن القول إن الميتاداتارغم کل ما رمن 
تساؤلات حول الممارسات الحالية أو المستقبلية التي يمكن أن تتغير» إلا أنها الطريقة 
المثلى لتمثيل الكيانات الرقمية» والتي تيسر عملية استرجاعها بكفاءة وفاعلية. 
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4.3 النصوص الكاملة 
Full Text‏ 

يعد تكشيف النصوص الكاملة وإتاحتها للبحث والاسترجاع آحد هم أآهداف 
نظم تمثيل واسترجاع المعلومات. وقد واجهت عمليات تكشيف النصوص الكاملة 
صعوبات عدة مع بدايات تطيبق الحاسبات في بناء وتطوير نظم النصوص الكاملة 
لعل أبرزها: الكلفة الباهظة لكل من مساحات التخزين ووقت التشغيل اللازمين 
للتعامل مع الكم الكبير من المعلومات التي يتم تخزينها ومعالجتها. وقد اعتمدت 
معظم النظم في بداياتها على توظيف بدائل النصوص الكاملة المتمثلة في قواعد 
البيانات الببليو جرافية والكشافات» بحيث يمكن إتاحة تلك المواد لأغراض البحث 
والاسترجاع. أما اليوم فقد أصبح من الممكن الاعتماد على جهاز حاسب شخصي 
في تخزين النصوص الكاملة بسهولة ومعالجتها بسرعة فائقة» لم يعد ذلك رفاهية في 
البيئة الرقمية» بل أصبح ضرورة ملحة مع النمو السريع في حجم المعلومات الرقمية 
التي يتم إنتاجهايومياًء وضرورة إتاحتها للبحث الآني. 


4.3.1 تمثيل معلومات النصوص الكاملة 


أدى التطور الملموس في عمليات التخزين الرقمي إلى تحسن كبير في مستويات 
معالجة النصوص الكاملة (1,1992ء ,ام ,»ملة٥N).‏ وعلى الرغم من ذلك فال 
تمثيل معلومات النصوص الكاملة لتيسير عملية الاسترجاع لا يحتاج إلى «(واصف 
JÛ Descriptor‏ كلمة)» ولا تکشیف او بناء کشاف )۴٣2٣21۸۸,1993(‏ سواء کان 
غير مرئي أو كتمثيل للنص الكامل نفسه. فعملية تمثيل النصوص الكاملة تشبه في 
خصائصها عملية التكشيف الاشتقاقي من خلال توظيف قوائم الكلمات المستبعدة 
Stop ¡sts‏ وج نع الكلمات ع«نصصعا؟ وغيرها من التقنيات والآليات المشابهة. وقد 
وصف لوهان (1960 ,«طسا]) عملية تمثيل النصوص الكاملة بأنها عملية تكشيف 
الكلمات المفتاحية وتتم بصورة آلية. وتعتمد معظم نظم الاسترجاع الشهيرة المتاحة 
على الإنترنت» مثل جوجل وغيره من المحركات» على سلوب تكشيف الكلمات 
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من ثم فإن تمثيل النصوص الكاملة لإتاحتها للبحث والاسترجاع يعد أحد 
الساليب الأساسية لتمثيل المعلومات بقواعد بيانات النصوص الكاملة» ولكي تتم 
تلك العملية لابد أن يتميز محرل البحث بوجود أداة تكشيف للنصوص تستطيع 
التعرف إلى الكلمات المفتاحية المهمة الواردة بالمادة التي يتم تكشيفها بالاعتماد 
على خوارزميات معينة وقوائم للكلمات التي يتم استبعادها من عمليات التكشيف. 


4.3.2 صعوبات تمثيل النصوص الكاملة 


على الرغم من المزايا العديدة التي يمثلها تكشيف النصوص الكاملة من وجهة 
نظر المستفيد» فإن الناتج النهائي عادة مايكون معقداً وضخماء ما يؤدي إلى انخفاض 
معدلات الاستدعاء» والذي يشير إلى عدد النتائج الصالحة المسترجعة في مقابل عدد 
النتائج الصالحة في النظام بأكمله. ولعل أبرز مثال على ذلك» حجم النتائج التي يتم 
استرجاعها من خلال محركات بحث الإنترنت» فعادة ما تسترجع محركات بحث الويب 
في عملية البحث الواحدة على الآقل عدة آلاف من المواقع يصلح منهاعدد محدود 
جدا للإجابة عن استفسار المستفید. وقد أشار فوجمان (99 ۴ 1993 ٣۵٣,‏ ع۴) فى 
هذا السياق إلى «آن عمليات تخزين النصوص الكاملة تحتاج إلى مساحات تخزين كبيرة 
من جانب اللات المستخدمة في البحث» ولكن أيضاً يتطلب صبراً من جانب المستفيد 
لمعالجة الكم الكبير من التتائج المسترجعة). 


فاسترجاع النصوص الكاملةء كما سنوضح لاحقاًء هو أحد نماذج تمثيل واسترجاع 
المعلومات الذي تطور بفضل التطور التكنولوجي الهائل. وعلى الرغم من ذلك فإن جودة 
عمليات التمثيل والاسترجاع للنصوص الكاملة لاتزال غير مرضية» يظهر ذلك بوضوح 
في حجم النتائج غير الدقيقة التي يتم استرجاعها من خلال محركات بحث الإنترنت. 

وتعتمد الحلول المستقبلية للتغلب على تلك المشكلات على التطور فى مجال أبحاث 
بالج الل الط رامغ الط ررفى الات الريب الفلا رالات لطاع وب 
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المهام الأساسية التي يجب أن تعمل تلك الأبحاث على تحقيقها ما يلي (1999,اإعنه)): 


٠‏ التطوير في عمليات إعراب الجمل الذي يساعد على تحديد البناء الدلالي 
للجمل والعبارات. 


ومن المعروف أن نظم استرجاع المعلومات التي تعمل بصورة آلية لا تتعامل 
مع المعلومات غير النصية مثل الأشكال والجداول (1993 ,««ة۳عد۴. لذلك 
اهتم قطاع من الباحثين والشركات بكيفية معالجة معلومات الوسائط المتعددة مثل 
الصوت والصور المتحركة المتاحة في صورة رقمية. وسوف يتم استعراض ذلك في 
الجزء التالي. 


4 4.4 تمثيل معلومات الوسائط المتعددة 


يوجد نمو هائل في حجم معلومات الوسائط المتعددة في البيئة الرقمية» حيث 
أدى التطور الكبير في آليات إنعاج المعلومات على الشبكة العنكبوتية العالمية إلى 
تيسير إتاحة تلك النوعية من المعلومات عن ذي قبل. كما أدى ازدهار أساليب إتاحة 
الوسائط المتعددة على الويب إلى ظهور تحديات كبيرة وجديدة لمجال تمثيل 
واسترجاع المعلومات. 


4.4.1 أنواع معلومات الوسائط المتعددة 


الوسائط المتعددة هي أي مزيج من الصوت والصور والمعلومات النصية» سواء 
کانت الصور ثابتة أو متحركة. وعادة مايتم استخدام مصطلحي الصوت ل«ده؟ 
والمواد المسموعة هالا كمترادفين» وأحيانا ما يستخدم المصطلح وثيقة منطوقة 
Document‏ okenمS‏ لللإشارة إلى المعلومات النصية المسجلة (مثل الخطابات 
والمحادثات) والتي يطلق عليها الآن المواد المسموعة. وفيمايتعلق بمعلومات 
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..Posters‏ . إلخ» والصور المتحركة التي قد تمتزج أو لاتمتزج بالصوت. ويشار إلى 
الصور المتحركة التى لاتشتمل على صوت بالرسوم المتحركة Animations‏ أو الأفلام 
الصامتة كعزامM‏ 1ء811. ويطلق مصطلح الوسائط المتعددة على الصور التي تمتزج 
بالصوت (الأفلام أو الفيديوهات)» ومن الممكن أن يظهر الصوت ممزوجا بالتضص 
کتعليقات على الصور ٣٣٥٤٥10٥١‏ أو ترجمةء كما يظهر اأنص فى الصور كشرح 
Caption‏ و عناوين فرعية كع])1)طSu.‏ 

ويوضح الشكل رقم (4.1) تشريحاً تفصيلياً لأنواع مصادر المعلومات المتاحة في 
صورة وسائط متعددة: 


والأفلام المتحركة 
ا سيت 


الوسائط المتعددة 


2 


شكل رقم (4.1) تشريح لمصادر معلومات الوسائط المتعددة 
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4.4.2 أساليب تمثيل الوسائط المتعددة 


افد تفيل الرساتط السخد هة فى الماضی :غل اسالبب الوصف القايدية الى 
سد إل سالب اهرما الرفقت ل اسم الي جج الور الا ات 
والعناوين الفرعية والكلمات المفتاحية..الخ. وقد كان هذا الأسلوبً الأساسي المستخدم 
في فهرسة المواد السمعية والبصرية بالمكتبات ومؤسسات المعلومات. وعلى الرغم من 
أن فمابة تمل الرساتط الخحددة تعمد اتم ا على الفذخل البري» إلا أنه مازال هناك 
قصور في جودة المتتج النهائي. ومن بين الأسباب التي تؤدي إلى ذلك آنه مازال من 
الصعب وصف الوسائط المتعددة بصورة صريحة وموضوعية. فعلى سبيل المثال كيف 
يمكن وصف صورة شروق الشمس أو غروبهاء أو قطعة موسيقية هادئة أو حتى صاخبة 
باستخدام مصطلحات تعبر عن محتواها بشكل صريح» إضافة إلى ذلك كيف يمكن 
تحقيق الاطراد والدقة فى عملية التمثيل لمعلومات الوسائط المتعددة بالاعتماد على 
الوه غير المرشرهي اللي يفن كدر كيرا من اللابة ورا ا 


لققد تہ تطویر سلوب التمثيل المستند إلى اnl~تé Approach Content Based‏ 
لتمثيل الوسائط المتعددة من خلال خصائصهامثل لون الصورة» النغمات الصوتية» 
وذلك للتغلب على القصور والقيود التي يفرضها الأسلوب المستند إلى الوصف 
Description Based Approach‏ السابق عر واع داري البات اليل الس كد 
إلى المخرى من لال ريز تات وام رالرى ل السرف المرتي 
Speech Recognition‏ والتعرف النمطي g Pattren Recognition‏ فهم الصرور ع12 
Understanding‏ والتي تستخدم في وصف وتحليل الوسائط المتعددة لأغراض التمثيل. 


ويعد هذا التوجه رمزا لتغيير نماذج تمثيل الوسائط المتعددة» فإذا كان نموذج 
التمثيل المستند إلى وصف الوسائط المتعددة يتم إنجازه من خلال المعلومات 
الوصفية وبطريقة يدوية مثل المنشى» وسنة الإنتاج والحجم..» ومعلومات المحتوى 
من خلال (الكلمات المفتاحية ورؤوس الموضوعات))» فإن التمثيل المستند إلى 
المحتوى يعمتد على تحليل خصائص ومحددات الوسائط المتعدده مثل ألوان 
الصور, النغمات الصوتية.. إلخ. 
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وتشتمل خصائص الوسائط المتعددة على أوجه متنوعة» لعل أبرزها الخصائص 
المشتركة للصور الثابتة مغلاً؛ اللون» الشكل» النصوص,» والتي يمكن تفصيلها وتحليلها 
أكثر من خلال خصائص مثل الاأتجاهية اا٣ Directi0‏ العشر اة «Randomness‏ 
التماسك كعماوuطه PR‏ التضاد أئه۲)«ه٤‏ وغيرها. 


أما المعلومات الصوتية فيمكن تحليل خصائصها إلى مجموعة من المعاملات 
تشمل السرعة والنغمات والتترات» بحيث يمكن استخدامها في عمليات التمثيل. 
وتمشل هذه الملامح الأساسية عن الوسائط المتعدده الحد الأدنى من المعلومات 
التي يمكن اشتقاقها آلياً أو بطريقة شبه آليةء والتي تحد أو تقلل بقدر كبير من الحاجة 
إلى التدخل البشري الذي مازال مكلفاوغير مرغوب في عملية تمثيل الوسائط 
المتعددة بدرجة كبيرة. 


وتعتمد آليات تمثيل الفيديو والصور والرسوم المتحركة على مجموعة من الخصائص 
تشبه تمثيل الصور الثابتة والأصوات» إلى جانب اتخاذ إجراءات التقطيع أو التجزئة 
للملف ١٥1اة٤١مسعءS‏ . وقد قامت شو (2001 )٤1«‏ بالمقارنة بين هذين الأسلوي 
لتحديد أيهما أكثر استخداماً في البحوث والتطبيقات» حيث قامت بتحليل الاستشهادات 
المرجعية للإنتاج الفكري المنشور في مجال تكشيف واسترجاع الصور» وتوصلت إلى 
أن الل المسعد إلى المحترى قد سبطر على الدراسات والطبقات فى هذا المجال 
في السنوات الأخيرة. وقد أشارت شو إلى أن السبب الرئيس وراء ذلك هو التعقيد الذي 
يتضمنه تطبيق أسلوب التمثيل المستند إلى الوصف في مقابل التطور التكنولوجي الهائل 
في البات دعم التمثيل الما الى المتري الاق فى بتورة الى اسي ابات 
التحليل واستخلاص المعلومات الدالة على المحتوى. ومع ذلك فإن نتائج شو تشير 
إلى أن تمثيل الوسائط المتعددة المستند إلى المحتوى لا يمكن أن يمثل الأسلوب الوحبد 
في المستقبل» على العكس من ذلك فإن سلوب التمثيل المستند إلى الوصف إذاتم 
تطبيقه بطريقة فعالة (أقل كلفة) وأكثر اطراداً وموضوعية فإنه قديساعد بصورة كبيرة 
على تحقيق الجودة في تمثيل معلومات الوسائط المتعددة لذلك فإن النموذج الأمثل هو 
المزج والتكامل بين الأسلوبين في تمثيل الوسائط المتعددة. 
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4.4.3 تحديات تمثيل الوسائط المتعددة 


إلى جانب ما سبق ذكره من مشكلات مرتبطة بتمثيل الوسائط المتعددة فإن 
مشكلات تجزئة الصور المتحر كة a)101)٠ءgmعءS Moving mage‏ وتحليل الخطب 
والمحادثات ع«اوءه۴ 1ءءءمS؟‏ أو الصوت مازالت تمثل تحديات أساسية فى مجال 
ت السا اليد اة و ت ال ر الهر ةع كط اناانحر 
فك الصور المتحركة إلى وحدات (مثل تشغيل الكاميراء لحظات الصمت) بمعنى 
الفواصل بين عناصر العمل. 

کمایتم تحليل الکادرات الأساسية ۴۲۵۳۶ ره التي تشمل الكادرات التي 
تتضمنها كل لقطة 510۲ والتي يتم استخدامها كأساس لتحليل المحتوى وتمثيله 
.)Zhang, et. a1., 1995(‏ وتو جد اسالیب متنوعة تشمل تقنيات وخوارزميات لتجزئة 
الصور المتحركة» ويظل جوهر تلك العملية واحدأفي كل تلك الأساليب» حيث 
يعتمد على تقسيم الصور المتحركة إلى كيانات صغيرة تحمل دلالات من ثم يمكن 
تحليلها وتمثيلها بتساو وتوازن ودقة. 

وتعتمد عملية تجزئة الخطاب ١10)ة٤١عءصعءS‏ chءعممSp‏ على تقطيع الخطاب 
الكامل إلى فقرات وجمل وعبارات وكلمات» بحيث يمكن تحديد محتواه 
الموضوعي وتمثيله. ومن الصعب تحديد معايير خاصة بطريقة بناء الصور المتحركة 
أو المعلوعات الصرتية ثظرا للطيعة الخاصة والمعقدة الم تبط ة بهماء ذلك أن الضرر 
الجر كة تتم رة فى الزمن والمساحة ولا بسكن دائما الافت اد على القراصل بين 
کادرات الكاميرا الت Consecutive Camera Shots‏ وتجزتتهاء لأنه مر صعب» 
كما أن الخطابات الصوتية لا تتضمن أي علامات ترقيم أو فواصل بين الجمل 
والكلمات أو غيرها من العلامات التى تساعد على عملية التجزئة» كماهو الحال فى 
الر ااا ا ع ا ار ا ال مها عة ٠‏ 


ومن أبرز أمثلة الصعوبات التى تواجه عملية التمثيل المواقف والإشارات التى 
تتضمنها المواد الصوتية مثل لحظات الصمت (أصوات التنفس» تلعثم اللسان» 
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الهمهمات..إلخ) عدم الطلاقة في الكلام (مثل الكلمات المنفصلة عن أي سياق» 
التوقفات ءعءuه۴»‏ التردد وتغيير الكلمات أو العبارات)» وكلمات إضافة أحداث 
وأمثلة مشل (وإضافة إلى وعلى سبيل المثال..إلخ)»ء وبسبب كل هذه التحديات 
والصعوبات فإن عملية التدخل البشري في الوصف الدقيق للوسائط المتعددة مازالت 
ضرورة ملحة حتى مع النظم التي تعتمد على التمثيل المستند إلى المحتوى» وما 
زالت هناك حاجة إلى مزيد من الدراسات والبحوث في هذا الاتجاه بغخرض تحقيق 
الذقة والشمول والجودة في المعالجة والتمثيل. 

وتجدر اللإشارة بصفة عامة إلى أنه يوجد عدد محدود من الدراسات والبحوث 
التي تمت على عمليات تمثيل واسترجاع المعلومات غير النصية و 
أقل أنواع المواد التي حظيت بعناية من بين الأنواع المتعددة للمواد التي تتضمن 
معلومات وسائط متعددة» في نفس الوقت الذي تشهد هذه النوعية من المصادر نمواً 
مظردا قي حم المعلرمات وقي ده الر ساط ال دة فى الب الرقة:والتى 
اه ل ر بر عار ا ع م ااا انها 
تجاوزت نسبة 1.30 من حجم الويب .Jones et,el., 1996, and Djeraba,(2002)‏ 
الك فان الي ا تر تال ر ارما الةو ر 
كبرى لتيسير عمليات تمثيل واسترجاع وإتاحة تلك المعلومات. وتوجد حاجة ماسة 
إلى إجراء العديد من البحوث والدراسات فى هذا المجال للفخلب على الشحديات 
آل فر اج الكرق (5 0 ارت المراة الصر تة والصرر الجر كة ازال الفهل 
ری عر ما ابا تی ف الرس الیو ج اب ا ارب 
التمثيل المستند إلى lائnحتږa .Approach Content Base‏ 


ويمكن القول بصفة عامة إن عدد الدراسات والبحوث التي اهتمت بتمثيل 
الرساط المخعدةة مقار تة بال مواد الة مازال سدوا دا وة المراد السو دة 
أقل المواد التي حظيت بعناية واهتمام الباحثين من بين مواد الوسائط المتعددة. 
ومع النمو المطرد في عدد الوسائط المتعددة في البيئة الرقمية» فإن تمثيل الوسائط 
المتعددة يمثل تحديا حقيقيأ لإتاحة المعلومات التي تتضمنها تلك الوسائط. 
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4.5 إطار ملخص لتمتيل المعلومات 
يعد تمثيل الوحدات المعرفية عملية أساسية عند استرجاع المعلومات لسببين 
آساسین هما 
٠‏ الأول أن التمثيل يوفر بدائل أكثر فعالية في البحث والاسترجاع لذلك فإن 
المعلومات لابد أن تكون ممثلة قبل أن يتم استرجاعها. 


٠‏ جودة التمثيل تؤثر بصورة مباشرة في كفاءة الأداء في عملية الاسترجاع. 


تعتمد عملية تمثيل المعلومات لأغراض الاسترجاع على معلومات وصفية 
مظهرية sوعص؟؟0‏ ومعلومات عن المضمون 0t5‏ باستخدام النموذج القستد 
إلى المحتوى فى تمثيل الوسائط المتعددة. وتجدر الإشارة إلى أن المعلومات 
المظهرية تشمل خصائص وصفية للمادة التي يتم تمثيلها مثل المؤلف أو المنشاًء 
اللغةء سنة النشر..إلخ» آما معلومات المضمون فتتعامل مع المحتوى الموضوعي 
للوثائق والمعلومات. ويعد نموذج المعلومات الوصفية المظهرية في التمثيل أكثر 
وضوحاً وسهولة مقارنة بنموذج معلومات المضمون الذي يعد أكثر صعوبة وتعقيدا 
حيث يعاني من مشكلات معالجة اللغخة» والتي سبق عرضهاء وخاصة التعامل مع 
المترادفات والمشترل اللفظي..الخ. 

ويتأثر أداء نظام الاسترجاع بكفاءة نظام التمثيل» لذلك لابد من الاهتمام بتحقیق 
أعلى مستويات الكفاءة والدقة والاطراد فى تمثيل المعلومات فى البية الرقمية» ما 
اة النعق دة والاكة 
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اللغة في ت تمثیل 
واسترجاع المعلومات 


5 مقدمة 


تعد اللغة أحد المكونات الرئيسة لآي نظام من نظم المعلومات عامة» وفي نظم 
تمثيل واسترجاع المعلومات خاصة. ويوجد نوعان أساسيان من اللغات في تمثيل 
واسترجاع المعلومات هما اللغة الطبيعية واللغة المضبوطة. وتستخدم اللغتان في 
ترجمة المفاهيم التي تتضمنها الوثائق التي يتم تمثيلها إلى مصطلحات تستخدم في 
وصف المفاهيم والمحتوى الموضوعي للوثائق. وعلى الرغم من إمكانية الاختيار 
بينهماء إلا أن السؤال الخاص بأيهما أفضل» مازال محل جدل دائم بين المتخصصين. 
وقد نتج عن استخدام لغتين للتعبير عن المصطلحات نظامان للتكشيف: هما نظم 
تكشيف اللخة المقيدة آو المضبوطة ونظم تكشيف اللغة الطبيعية. وتستخدم اللغة 
في التعبير عن المحتوى الموضوعي للوثائق باستخدام مصطلحات يتم اشتقاقها من 
أدوات (نظم اللغة المضبوطة) أو من النصوص مباشرة (نظم اللغة الطبيعية) للتعبير 
عن المفاهيم التي تتناولها تلك الوثائق. وسيتم فيما يلي التعرف إلى طريقة تطبيق 
كل نوع من هذين النوعين في نظم استرجاع المعلومات. 
5.1 نظم تكشيف اللغات المقيدة أو المضبوطة 

هي النظم المبنية على الاختيار والصياغة والربط بين المصطلحات التي تعبر عن المحتوى 
الموضوعي لأوعية المعلومات من خلال الاعتماد على لغات تكشيف معيارية. ويطلق عليها 
نظم مضبوطة أو مقننةء نظراً لأن التحكم في المصطلحات وطريقة الربط بينهايتم وفقاً لمعابير 
معينة تحددها لغة التكشيف التي يعتمد عليها النظام. وتنبع الحاجة إلى استخدام لغات 
مضبوطة في التعبير عن المحتوى الموضوعي للوثائق من طبيعة اللغة بصفة عامة. 
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وتعد قوائم اللخات المضبوطة نموذجاً بارزاً للغات الاصطناعية» حيث إن 
مصطلحاتها وبنيتها ودلالاتها محددة ومقيدة فى استخدامها (199 ,طءءناآا۷6). ومن 
المعرف اف الصاح الر هد سن المتكن التكرة له تان مان في اكتر من 
قائمة مصطلحات مضبوطة» حيث إنه عادة مايكون لكل قائمة توجهها الخاص. 
لذلك فإن عمليات تجهيز المصطلحات المضبوطة عادة ماتعتمد فى بنيتها على 
الو ا ل م اي دا و ار الب اجات ایی ا 
اللغات المضبوطة على مبدأين أساسيين هما: 

Literary Warranty السند الآدي‎ ٠ 

User Wa11aıt سند المستفيد‎ * 


السند الأدبي يشير إلى أن المصطلح الذي يتم اختياره بالقائمة لابد أن يكون 
له نظير بالإنتاج الفكري المتخصص في المجال» مايعنى أنه ظهر بأحد مصادر 
المعلومات الحديثة وبناء عليه يتم إضافته إلى القائمة» بمعنى أن عملية اختيار 
المصطلحات وإضافتها إلى قوائم رؤوس الموضوعات تتستند في الأساس إلى 
المصطلحات الواردة باللغة الطبيعية في الإنتاج الفكري. من ثم فإن اللغة الطبيعية 
عادة ماتكون أكثر ثراءً وتنوعا من اللغة المضبوطة. 

وبالمثل» فإن سند المستفيد يشير إلى أن المصطلح الذي يتم اختياره بالقائمة لابد 
أن يكون تم استخدامه في استفسارات المستفيدين كمصطلح بحثي في الماضي» أو 
من المتوقع استخدامه في المستقبل في الببحث عن الإنتاج الفكري الذي ظهر به 
المصطلح في مرحلة السند الأدبي. 

من ثم فإن بناء قوائم المصطلحات المضبوطة من الممكن أن يعتمد على تحليل 
محتوى النصوص لاشتقاق الكلمات ثم يتم ضبطها أو تحليل ملفات لوج استفسارات 
المستفيدين ses Queries L8‏ . ویوجد ثلاث نماذج للخات المضبوطة هي المكانز 
وقوائم رؤوس الموضوعات وخطط التصنيف» وسيتم فيمايلي عرض كل نموذج من 
هذه النماذج بشيء من التفصيل. 
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5.1.1 وظائف اللغة المقيدة 


اللغات المقيدة أو المضبوطة تحقق العديد من الوظائف عند استخدامها كأساس 
لعملية التكشيف منها ما يلي: 
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الاطراد في التكشيف» بمعنى الثبات على مصطلح واحد محدد للدلالة 
على المفهوم المكشف. من ثم تساعد على تجنب التشتت الموضوعي في 
مرحاتي التكقبف والبة. 

تسيز جرا مابات البح العريضة والشاما الي ساعد على تجيم 
المصطلحات المتصلة ببعضها بعضا دلالياء وذلك من خلال الاستفادة من 
إنكاات اة الال 

ضمان التعبير عن جميع المفاهيم المشتركة لفظياً في الهجاء والمختلفة 
في الدلالة بمصطلحات مختلفة من خلال التبصرات التي توضح مجال 
المصطلح. 

اللخات المضبوطة تتمتع بالقدرة على تحقيق مستويات دقة عالية اع1٩٤‏ 
Pisin Rat‏ في مرحلة البحث. 


5.1.2 عيوب نظم اللغة المقيدة 


ومن آهم عيوب نظم التكشيف التي تعتمد على اللغات المقيدة ما يلي: 


1 


2 


الكلفة الباهظة؛ حيث تحتاج هذه النظم إلى خبراء متخصصين في 
المجالات الموضوعية وعلى دراية دقيقة ببنية لغخات التكشيف ومتطلبات 
عملية التكشيف. 


الإنتاج الفكري. وتبرز هذه المشكلة بشكل أكثر وضوحا عند ظهور مصطلح 
جديد في الإنتاج الفكري» حيث تشير الدراسات إلى أن أي مصطلح قد يبستغرق 
ما بين عامين إلى ثلاثة أعوام حتى يظهر في لغات التكشيف المضبوطة. 
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5.1.3 أنواع نظم التكشيف المقيدة 
تنقسم نظم التكشيف المضبوطة أو المقيدة إلى فتتين أساسيتين هما: 


5.1.3.1 نظم تكشيف الربط المسبق 


Pre-coordinate Indexing Systems 


وهي النظم التي تربط بين المصطلحات في مرحلة التكشيف» بحيث يتم إعداد 
تراكيب مصطلحات أو رموز تعبر عن المحتوى الموضوعي للوثيقة أو وعاء المعلومات 
E‏ 
الممطدان الى بكرو ارح ا ف ا ا 
على أداتين أساسيتين هما قوائم رؤوس الموضوعات وخطط التصنيف. 
٠‏ قوائم رةوس الموضوعات 
تعد قوائم رؤوس الموضوعات من أقدم نماذج قوائم المصطلحات المضبوطة التي 
تم تصميمها لأغراض الربط المسبق واللاحق معا. وقد كان الربط المسبق النموذج 
المصطلحات من خلال أنظمة التفريع والت ركيب قبل عملية التمثيل والاسترجاع. 
قوائم رؤوس الموضوعات هي عبارة عن قوائم منهجية بموضوعات المعرفة 
البشرية مرتبة ترتيبا هجائياً مع بيان العلاقات بين هذه الموضوعات. وتشتمل قوائم 
- رأس الموضوع المفرد: ويأخذ هذاالرأس شكل كلمة واحدة مشل الإعلام 
المكتبات» الحاسوب.. إلخ. 
- رأس الموضوع المركب: وهو عبارة عن رس مكون من كلمتين مركبتين مثل 
استرجاع المعلومات» الحاسب الآلي» التطوير الذاتي» إدارة الإعمال.. الخ. 
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زاس الموضوع المعقد: وهو عبارة عن رؤوس الموضوعات التي تتضمن أكثر 
من كلمتين مثل نظم استرجاع المعلومات» النظم الاألية المتكاملة. 

فإذا كانت المادة المكشفة تتناول مgوضgۃ Internet Retrieval System‏ فإù‏ نظام 
الربط المسبق يربط بين تلك المصطلحات في قائمة رؤوس الموضوعات من البداية» 
من ثم يتم استخدام المصطلح بصورته المعقدة في عملية التمثيل» وكذلك في عملية 
الاسترجاع. لذلك فإن عملية الربط تتم عند بناء المصطلح لأغراض التمثيل» كما 
تتم بنفس الطريقة في مرحلة الاسترجاع دون تدخل من المكشف أو الباحث» حيث 
يجب على كل منهما التزام التتابع الخطي المستخدم في عملية بناء المصطلحات 
عند التمثيل والاسترجاع. ونظراً لأن قوائم روس الموضوعات تتيح إمكانيات الربط 
المسبق واللاحق (بدرجة أقل)؛ فإنها تتميز بمرونة أكبر من خطط التصنيف؛ ولكنها 
أقل تحذيدا ومرونة من المكانز,. 


ومن هم السمات التي تميز قوائم رؤوس الموضوعات وتجعلها آداة من هم 
آذرات الز بط المسيقء» اسفخدامها لمبدا القر عات حث إن رووس الموضروغات 
سواء كانت بسيطة أو مركبة أو معقدة تطبق تراكيب عدة سواء كانت وجهية أو 
جغرافية أو زمنية أو شكلية. بالتالي فإن رأس الموضوع يرد في القائمة» إما مركباً 
مع كافة الأوجه الممكنة أو توفر القائمة إمكانية تركيبه من الأوجه المختلفة. ومن 
أمثلة قوائم رؤوس الموضوعات الشهيرة قائمة رؤوس موضوعات الكونغخرس» 
قائمة رؤوس موضوعات سيرز» قائمة رووس الموضوعات الطبية» قائمة رؤوس 


الموضوعات العربية الكبرى. 


عادة ما يستخدم مصطلح رؤوس الموضوعات للدلالة على المصطلحات التي 
تتضمنها قوائم رؤوس الموضوعات» ويتم ترتيب تلك الرؤوس ترتيبا هجائيا. وتعتمد 
تلك القوائم على شبكة الإحالات في عمليات الإشارة والتحويل. وهم آنواع تلك 
الإحالات إحالة انظر 5١‏ والتي تستخدم للإحالة من المصطلح غير المستخدم إلى 
المصطلح المستخدم. بينما تستخدم علامة × والتي تعني انظر من See ۴۲0٥۳‏ والتي 
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٠‏ نماذج للإحالات بقوائم رووس الموضوعات 
Handicapped‏ المعوق 

6 انظر 

Challenged‏ yااPhysica‏ متحدي اللإأعاقة 

ومن المصطلح متحدي الإعاقة تستخدم إحالة انظر من () 

Challenged‏ yااPhysica‏ متحدي الإعاقة 

XxX Xx 


Handicapped‏ المعوق 


فعلامة × هنا تشير إلى أن مصطلح متحدي الإعاقة هو المصطلح المفضل لهذا 
المفهوم. 

وتستخدم إحالة انظر أيضاًإه۴ 5٥١‏ وإحالة ×× التي تستخدم للدلالة على انظر 
اُیضاً من $e 0 ۴۲٥۳‏ وتستخدم إحالة انظر أيضا للدلالة على العلاقات الشجرية 
والبينية (المرتبطة) بين رؤوس الموضوعات. وكما هو الحال في إحالة × فإن إحالة 
×× تحيل المستخدم إلى المصطلح المفضل 0ء۸1 عم؟. ٠‏ 

من ثم يمكن القول بصفة عامة إن قوائم رؤوس الموضوعات تستخدم لأغراض 
التمثيل الاصطلاحي والمفاهيمي في صورة مقيدة بنظم الربط المسبق واللاحق 
معاء إلا نها أقل استخداماً وشيوعاً من المكانز في نظم التمثيل والاسترجاع بنظم 
المصطلح غير الواحد. 

وعد قائمة رؤوس موضوعات مكتبة الكونجرس وقائمة رؤوس موضوعات 
سیرز 4۲م آبرز نماذج قوائم رووس الموضوعات على المستوى العالمي» مع 
العلم أن قائمة رؤوس موضوعات مكتبة الكونجرس تحولت منذ الطبعة الحادية 
عشرة إلى النموذج المكنزي في البناء الهرمي للمصطلحات وشبكة الإحالات. 
وتعتمد في نسختها المتاحة على الويب على نموذج العرض المرئي للبنية الهرمية 
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للمصطلحات”. وقد بدأت قائمة رؤوس موضوعات مكتبة الكونجرس منذ بداية 
الألفية الجديدة تطبيق معايير ربط البيانات «k٥۵ 2٤4‏ من خلال ربط المصطلحات 
بتطبيقات إطار وصف المصiدر Reasourse Description Framwork — RDF‏ و معايير 
الميتاداتا المطبقة بالمكتبة. 


وعلى المستوى العربي تعد قائمة رؤوس الموضوعات العربية الكبرى لشعبان عبد 
العزيز خليفة وقائمته للمكتبات المدرسية والعامة والمعروفة بقائمة رؤوس الموضوعات 
القياسية من أبرز النماذج العربية وأكثرها انتشاراً واستخداماً. وتجدر الإشارة هنا إلى 
أن قوائم رؤوس الموضوعات العربية مازالت تعتمد على الأساليب التقليدية في بناء 
المصطلحات والربط بينها والتعبير عن شبكة العلاقات والمصطلحات. وتوجد حاجة 
ماسة إلى تطوير آدوات جديدة في البيئة العربية تتوافق مع التطورات التي تسير في هذا 
المجال واحتیاجات تمثیل استرجاع المعلومات في البيئة الرقمية. 

ه٠‏ خطط التصنيف 


هي عبارة عن قوائم منهجية بموضوعات المعرفة البشرية مرتبة وفقا لخطة 
تصنيف تربط وتجمع الموضوعات وفقا لعلاقاتها ببعضها بعضا. وعادة ما تتدرج 
خطط التصنيف من الموضوعات العامة إلى الموضوعات الأكثر تخصصا. وتسمح 
ببناء تراكيب للموضوعات التي تشتمل على أكثر من جانب موضوعي. وتنقسم 
خطط التصنيف التي يمكن استخدامها في نظم تكشيف الربط المسبق إلى نظم 
. خطة: تصنیف رنجاناثان ونظام ڌ تصنيف تشارلز كتر. 

وتعد خطط التصنيف أقدم نماذج التكويد باستخدام آليات مضبوطة مسبقاً 
آي تستخدم نموذج الربط المسبق في تمثيل المفاهيم والموضوعات. ويطلق 


http://id.loc.gov/authorities/subjects.html (1) 
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على الوحدات الأساسية لخطة التصنيف الفغات كعءءها٣‏ والتي يتم تمثيلها 
بصورة رقمية أو هجائية أو مزيج منهما معاً. بمعنى أن خطط التصنيف تستخدم 
الرموز (الرقمية» الهجائية أو مزيجامنهمامع علامات خاصة) للدلالة على 
المفاهيم والموضوعات. 

ونظراً لأنها أقدم نماذج نظم التمثيل بآليات التكويد المضبوطة»ء فإن خط ط 
التصنيف شهدت العديد من التطورات المتلاحقة والمراجعة والتحديث خلال الفترة 
من نهاية القرن التاسع عشر حتى بدايات القرن الواحد والعشرين. وعلى عكس 
كل من المكانز وقوائم رؤوس الموضوعات اللذين يستخدمان الإطار الطبيعي في 
التعبير عن المعرفة من خلال آليات التعبير الاصطلاحي أي باستخدام المصطلحات 
والكلمات» تعتمد خطط التصنيف على إطار اصطناعي للمعرفة يتمثل في تكويد 
الموضوعات برموز للدلالة عليها. فعلى سبيل المثال تستخدم خطة تصنيف ديوي 
العشتري نموذجا اصطاعبا لتيل الأصطلا حي للمعرفة مكون من 10 قات أساسية 
ف قم قي اعات الا ساس إلى 10ش لكل فة رها في ترج افاي غرفي 
لتمثيل المعرفة في مقابل التدرج الشجري أو العلائقي المستخدم في المكانز والتدرج 
الهجائي المستخدم في قوائم رؤوس الموضوعات. 

وبالنظر إلى التدرج المنطقي للفئات والشعب نلاحظ آنه تدرج هرمي للعلاقات 
الاصطناعية بين الموضوعات. من ثم نجد أن بعض الموضوعات يمكن عرضها في 
إطار أكثر عمقاً في البناء الهرمي من موضوعات أخرى. ويتم التعبير عن العلاقات 
البينية المرتبطة بخطط التصنيف من خلال استخدام نظام إحالات مكون من إحالة 
انظ و (انظر با ال اعمان عفد الاج اليما 


وقد تم استخدام خطط التصنيف كنموذج لتمثيل واسترجاع المعلومات الأحادية 
Monograph Information‏ حیث یتم استخدام رمز تصنيف واحد للإشارة إلى كيان 
أو وعاء معلومات أو وحدة معلوماتية كاملة. ومن آبرز نماذج خطط التصنيف وأكثرها 
انتشارا على المستوى العالمي كل من خطة تصنيف ديوي العشري وخطة تصنيف 
مكتبة الكونجرس واللتين تمت ترجمتهما إلى كل اللخات ومنهاالعربية. 
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٠‏ خطوات التكشيف في نظم الربط المسبق 
تنطوي عملية التكشيف في نظم الربط المسبق على أربع مراحل أساسية هي: 
1. التحليل المفاهيمى. 
2. اختيار المصطلحات من لغة التكشيف المقيدة. 
3 کت أو ربط اله طلحات ساوقا ق اعدا مط الت ود عا اة 
التكشيف . 
4 إغداد الروابط الى تربط السجلة الب ليو جر اة بمخزن الوثائق. 
وناتج عملية التكشيف في هذه الحالة يتمشل في تراكيب مصطلحات مركبة أو 
معقدة» بالتالي ينبخي في عملية البحث أن تصاغ الرؤوس المستخدمة في الببحث 
بنفس الطريقة التي أأعدت بها في أثناء عملية التكشيف لكي تتم عملية المضاهاة 
بين مصطلحات البحث والمصطلحات المستخدمة في عملية التكشيف. بمعنى 
آخر أنة ينبغخى أن تكون الرؤوس أو الرموز المستخدمة فى عملية الببحث متطابقة 
تماما مع الرؤوس أو الرموز المستخدمة في عملية التكشيف. وقد استخدمت هذه 
النظم في إعداد الفهارس الموضوعية الهجائية» الفهارس المصنفة» الببليوجرافيات 
الموضوعية المصنفة. 
ومن هم عيوب نظم تكشيف الربط المسبق ما يلي (لانكستر» 1997): 
1 أنها معقدة من حيث البناء» حيث تتطلب إعداد تراكيب للمصطلحات تربط 
فيما بينهاء بحيث ينتج في النهاية رأس موضوع واحد يعبر عن المحتوى الموضوعي 
2. هذاالنوع من النظم يستخدم مدخلا واحدأ لترتيب المصطلحات المركبة 
أو المعحقدة وهو ليسن بالضرورة الرس المتاسب لابح فی كل الحالات. 
إضافة إلى أن وعاء المعلومات لا يمكن الوصول إليه إلامن خلال هذا 
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المدخل» بمعنى اختزال العلاقة بين المصطلحات في شكل خطي أو تتابع 
خطي باستخدام التوافيق المحتملة للمصطلحات» مايقيد المستفيد في عملية 
البحث وفقاً لهذا التتابع الخطي. 

أن هذا الأسلوب وإن كان اقتصاديا من حيث عدد المصطلحات المستخدمة 
في التعبير عن المحتوى الموضوعي للوثيقة» إلا أنه غير عملي» حيث إن زيادة 
د ا ا ات التي تمي إليها الوثيقة إلى 10 أو 15 مصطلحاً 
تخلق موقفاً يصبح من المستحيل فيه التعامل مع نظام الربط المسبق. 


ومن الحلول التي طرحت للتغلب على مشكلات نظم الربط المسبق ما يلي: 


محاولات تشارلز كتر في استخدام مبدأ القلب في صياغة الرؤوس المركبة» 
الذي أوصى بوضع المصطلح الهم في مقدمة الرأس» وذلك بقلب الرأس 
إذالم يكن العنصر الأول فيه هو العنصر المهم. كماوضع أيضا الجذور 
الأساسية لشبكة الإحالات التى تربط بين المصطلحات الراردة فى لغة 
التكشيف كإحالات انظر وانظر أيضا. 


استخدام فكرة التصنيف الوجهي: وتقوم فكرة التصنيف الوجهي على ساس 
أن كل الرؤوس المركبة أو المعقدة يمكن تركيبها باستخدام نسق عام لترتيبها 
يعتمد على تحديد العنصر المهم في الرأس» بحيث يأتي في البداية ثم يليه 
العنصر الأقل أهمية ثم الأقل أهمية. كمايرى كايزر أن رؤوس الموضوعات 
المركبة أو المعقدةيمكن تحليلهاإلى مركب مكون من شيء محسوس 
»Concrete‏ وعملية essءPr0‏ ون المحسوس أو الشيء ينبغي دائماً أن سق 
العحملية عثد إغداة الراس: 


مثال الكتب - فهرسة 


المكتبات - تنظيم 
النظم -تحليل وتصميم 
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كماوضع مبادئ التفريعات الجغرافية والشكلية بحيث تلي تلك التفريعات 
العمليات التي تتم على المفهوم. 

مثال: المكتبات - تنظيم - مصر (الشيء - العملية -التفريع الجغرافي) 

المكتبات - مصر - أدلة (الشيء - التفريع الجغرافي -التفريع الشكلي) 

كما قام رانجاناثان بإعداد أشهر خطة للتصنيف الوجهي في أواخر العشرينيات 
وأوائل الثلاثينيات من القرن السابق. وقد استندت فكرة رانجاناثان إلى تطوير أفكار 
كايزر للمحسوس والعملية» وذلك اشتمل على خمس فثات أساسية هي: 

5 الشخصية: الشيء نفسه 

6 المادة: مواد أساسية 

7 الطاقة: عملية - أسلوب 

8 المكان. 

9 الزمان. 


Term Rotation تدويرالمصطلحات‎ ٠ 


تستند فكرة تدوير المصطلحات إلى ساس إعطاء كل عتصر من عناصر الراس 
فرصة الظهور في مقدمة الرأس. بالتالي يكون قابلاً للبحث والاسترجاع. وهي 
الفكرة التى استندت إليها فيما بعد كشافات الكلمات المفتاحية» فمشلا إذا كان لدينا 
رأس موضوع معقد مثل نظم استرجاع المعلومات الببليوجرافية يمكن تدويره كاملاً 
باستخدام المعادلة التالية. 

(N-D X (N -2) X (N-3) XN 


فإذا كان لدينا رس مكون من أربعة مصطلحات» وعند تطبيق معادلة تدوير 
المصطلحات تكون كالتالى: 


(4-1) X (4-2) X (4-3) X 4=3 X 2X 4 =4 
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أما إذا اشتمل الرس على ثلاثة مصطلحات يكون عدد البدائل كما يلي: 
X (3-2) X3=2 X1 X3 =6‏ )3-1( 
مثال: نظم استر جاع المعلومات 
نظم استرجاع المعلومات 
نظم المعلومات - استرجاع 
استرجاع المعلومات - نظم 
استرجاع -نظم -المعلومات 
نظم المعلومات -استرجاع 
نظم -استر جاع المعلومات 
وتجدر الإشارة إلى أن من هم عيوب عملية تدوير المصطلحات الزيادة الكبيرة 


في عدد البدائل» ما يؤدي إلى تضخم الكشافات» مع العلم أن تلك الآليات كانت 


5.1.3.2 نظم تكشيف الربط اللاحق 


Post Coordinate Indexing Systems 


هي النظم التي يتم الربط فيها بين المصطلحات التي تمثل المفاهيم المختلفة 
لكي تظهر في شكل رؤوس مركبة أثناء عملية الببحث والاسترجاع. في هذه النظم يتم 
تمثيل المصطلحات التي تعبر عن المفاهيم الواردة في الوحدة المكشفة في صورة 
مص طلحات مفردة» فيما يطلق عليه نظام المصطلح الواحد ۲۳ء امتا دون الحاجة إلى 
إعداد تراكيب مصطلحات معقدة أثناء عملية التكشيف. ما يقضي على مشكلة التتابع 
الخطى للمصطلحات.» ويقضى بالتبعية على الحاجة إلى تدوير المصطلحات. كما 
آنه يوفر إمكانية الوصول إلى الوثائق باستخدام المصطلحات المفردة والمصطلحات 
المركبة والمعقدة. 
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وقد اتخذت نظم الربط اللاحق أشكالاً متعددة في مراحلها الأولى؛ منها الاعتماد 
على البطاقات المثقبة في تمثيل المصطلحات المفردة» ما آدى إلى ظهور مبادئ 
مختلفة للمضاهاة أو المطابقة بين المصطلحات المستخدمة في عملية التكشيف 
والمصطلحات المستخدمة في عملية البحث والاسترجاع. ومن هذه الأساليب مبداً 
المطابقة البصرية ومنها أيضاً مبدأ المطابقة الميكانيكية. وقد اعتمد كل منهماعلى 
استخدام بطاقة واحدة للتعبير عن المصطلحات المختلفة في النظام فيما يعرف 
ببطاقة الوثيقة أو استخدام بطاقة واحدة لكل مصطلح فيما يعرف ببطاقة المصطلح. 


وتجدر اللإشارة إلى أن طرق إعداد بطاقة المصطلح وبطاقة الوثيقة قام بتطويرها كل 
من باتن 81۵١‏ ومورز 0٥5‏ في نهاية الأربعينيات من القرن الماضي» ولم تزل 
الطريقتان هما الأساسيتين في بناء ملفات النظم الإلكترونية المعتمدة على الحاسبات 
الآلية في استرجاع المعلومات. 
ومن هم الملامح العامة التي تتميز بها نظم التكشيف الربط اللاحق آنها:- 
المصطلح الواحد دون الحاجة إلى توافيق أو تراكيب مصطلحات معقدة. 
2 تعتمد هذه النظم على اختيار المصطلحات من لغة تكشيف مضبوطة أو مقننة 
يطلق عليها المكانز سوف نتناولها بالتفصيل فيما بعد. 
3. يجب استخدام لخة التكشيف المضبوطة أيضاً لاختيار المصطلحات المناسبة 
للتعبير عن المفاهيم الواردة في استفسارات المستفيدين. 
4. بعد اختيار مصطلحات البحث من لغة التكشيف المضبوطة يتم الربط بينها 
5. هذه الطريقة تمثل الأساس الذي تعتمد عليه معظم النظم الإلكترونية في 


تمثيل الوثائق» بالتالي فهي تصلح أساسا لنظم استرجاع المعلومات المعتمدة 
على الحاسبات الآلية. 
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6. تتمتع هذه النظم بالمرونة الكافية» حيث إنه يمكن تمثيل محتويات الوحدة 
المكشفة بأي عدد من المصطلحات» بالتالى يمكن تحقيق مستوى العمق 
الو ف ن درن ااا إلى عا اف ر ره 
معتمدة على التتاإبع الخطي للمصطلحات» كذلك دون الحاجة إلى تدوير 
المصطلحات من أجل تيسير عملية الوصول إليها. 


٠‏ المکانز 


المكنز عبارة عن قائمة مصطلحات مضبوطة تعتمد فى صياغتها للمصطلحات 
على اسلوب المصطلح المفرد ١۲۳ءا1ه‏ ا القائم ا بغیره من 
المصطلحات عن طريق معاملات الببحث فيما يطلق عليه الربط اللاحق (- ام۴ 
»)coordination National Information Standards Organization, 1993‏ كماعرفهھا 
رولي بانها: قائمة بالمصطلحات والعبارات توضح المترادفات والبناء الشجري 
وغيرهما من العلاقات ومدى تبعية مصطلح لمصطلح آخر» والتي تساعد على توفير 
قائمة معيارية لخزن واسترجاع المعلومات .(Rowley,1992, P.25(‏ 

ويعد الربط اللاحق أآحد آليات معالجة المصطلحات في نظم استرجاع المعلومات 
التي ظهرت كبديل لنظم الربط المسبق التي تعتمد على خطط التصنيف وقوائم 
رووس الموضوعات. وتساعد نظم الربط اللاحق المستفيدين على إقامه علاقات 
بين المصطلحات وإنشاء تراكيب البحث في مرحلة تمثيل واسترجاع المعلومات. 
ومن آبرز عيوب الربط اللا حق هو الربط الخاطيم وأحد آأبرزالأمثلةغلى ذلك 
مصطلحان مثل Desk , ٥طا †e۲‏ یمکن ربطهما بطریقتین مثل 2e)‏ عا امه او 
Desk Computer‏ وذلك بناء على الغخرض الأساسي من الموضوع» فإذا كان الباحث 
یرید معلومات عن ۲ء )لم٤‏ )وع( فإن النتائج التي يون |لربط Computer lq‏ 
ء6 سوف تؤدي إلى ربط خاطى ونتائج غير دقيقة. 

وتستخدم الحواشي المعيارية في بناء المكانز لتحديد العلاقات الشجرية (الهرمية) 
وعلاقات الارتباط وغيرها من العلاقات بين المصطلحات. وتستخدم شبكات 
الإحالات لتحديد المصطلحات المفضلة في الاستخدام للدلالة على الموضوعات 
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والمفاهيم مثل إحالة مستخدم ءل وإحالة مستخدم ل(0۴) إ0 dعءا.‏ وتستخدم 
حواشي المجال (N[؟)‏ مه ممSc0‏ في تحدید نطاق استخدام المصطلح والمعنى 
الدلالي للمصطلح المستخدم. ويتم توضيح العلاقات الشجرية بين المصطلحات من 
خلال علاقات البناء الهرمي للمصطلح الأضيق ٠۲۳١ )N1(‏ ء۷١٥۲ء‏ المصطلح 
الأوسع ›Broader Term (BD)‏ كما يتم التعبير عن علاقات |لأٺرüتiuط Associative‏ 
Relationship‏ من خلال استخدام إحالة المصطلح المرiبط .Related Term (RT)‏ 


ااا وب ال ار و عا هاا وها ل الرصر ل الى فة 
المصطلحات وعلاقاتها ببعضها بعضا. كما يتم أحياناً استخدام أساليب التدوير 
Rotated‏ والتبدیل uted‏ ء۳ في عرض المصطلحات إلى جانب أساليب العرض 
النظمي Systematic‏ و التصنيفي sification‏ أو العرض الشكلي Graphical‏ 
لاستعراض المصطلحات وعلاقاتھا بېعضھا بعضÎ.‏ )& Aitchison, Gilchrist‏ 
.(Bawden , 1997‏ 


وتعد المكانز أكثر قوائم اللغات المضبوطة شيوعاً في الاستخدام في نظم تمثيل 
واسترجاع المعلومات» حيث تعتمد قوائم رؤوس الموضوعات وخطط التصنيف 
التحليلية التركيبية على نظم المصطلح غير الواحد 1مMonograp-NNon.‏ ما يیحد من 
مرونة تلك الأنظمة» بينما تتميز المكانز التي تعتمد على نظم المصطلح الواحد 
بالمرونة إلى جانب قدرتها على معالجة المفاهيم المعقدة» من خلال معاملات الربط 
والعلاقات المتنوعة والإحالات. 


وقد اتجهت منذ بداية القرن الواحد والعشرين العديد من قوائم رؤوس 
وشبكة الإحالات» ولعل أبرز مثال على ذلك قائمة رؤوس موضوعات مكتبة 


الكونجرس وقائمة رۆۇوس الموضوعات الطبية“. 


https://www.nlm.nih.gov/mesh/flelist.html (1) 
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5.1.4 مقارنة بين المكانز وقوائّم رووس 
الموضوعات وخطط التصنيف 

يشير جدول (4.1) إلى ملخص للملامح المميزة للأنواع الثلاثة المستخدمة في 
تمثيل نظم اللغة المضبوطة. فإلى جانب ماتم مناقشته لاحقاء فإن لغات الربط 
المسبق تتميز بملمح مهم اخر يتمثل في طرق التحليل. ولعل أبرز طرق التحليل التي 
تتبعها تلك الأدوات أنها أدوات حصر 0018 »Enumeration‏ » ما يعنى نها تتیح قوائم 
حصرية بالمصطلحات التى تمثل الإطار المعرفى الكامل سواء كان طبيعياً (كماهو 
الحال في المكانز وقوائم رؤوس الموضوعات) أو مصطنعاً كما هو الحال في خطط 
التصنيف دون الحاجة إلى دمج المصطلحات معأ للتعبير عن إطار معقد للمعرفة. 
وعلى العكس من ذلك» تعد تلك اللغات اشا أدوات ترکیب ۲۵1۶ وزوعطامر؟ تتیے 
الدمج بين المصطلحات لبناء تركيب أكثر تعقيداً سواء كان ذلك في مرحلة التمثيل 
أو البحث (لانكسترء 1997) ويوجد ارتباط جذري بين طريقة التحليل وطريقة الربط 
في تلك الأدوات. ويرجع ذلك إلى أن أدوات الربط المسبق تعد أدوات حصرية في 
بنيتهاء بينما تعد أدوات الربط اللاحق أدوات تحليلية تركيبية. ويتم تحديد مستويات 
التحليل والربط ومدى التخصيص والمرونة في قوائم الربط المسبق من خلال مبادئ 
للربط وإقامة العلاقات» بينما تتميز أدوات الربط اللاحق بو جود مرونة فى آليات 
للجرائ ب المحرفة المخر عة من لخا ت الربط المسبق الحصرية وو قا للجدول (4-1 
فإن المكانز تعد أكثر اللغات المضبوطة تخصيصاً ومرونة في الاستخدام من كل من 
خطط التصنيف وقوائم رؤوس الموضوعات؛ مايفسر لماذا تعد المكانز أكثر لغات 
المصطلحات المضبوطة انتشاراً واستخداماً في تمثيل واسترجاع المعلومات. 
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جخذول 41 مقار ات ال مض طلحات الم طة 


اللغة / الخاصية المكانز قوائم رؤوس الموضوعات خطط التصنيف 
مكونات المصطلح واصفات رؤوس موضوعات رموز التصنيف 
أسلوب الإحالات _ استخدم» مستخدم ل استخدم» مستخدم ل انظر وانظر أيضاً 
والحواشي مستخدم بدلا من» مستخدم 
بدلا من أيضاً 
طرق التحليل نحليلية تركيبية حصرية 
طرق الربط لاحق مسبق ولاحق مسبق 
التخصص أكثر تخصصاً خصصة إلى حدما عامة 
المرونة أكثر مرونة مرنة إلى حد ما قل مرونة 
الموادالمستهدفة النفردات والمواد التحليلية | المنفردات المواد التحليلية المنفردات 


4 5.2 نظم تكشيف اللغة الطبيعية 


تعمل نظم التكشيف بصفة عامة على إعداد بدائل للوثائق يمكن بحثها بسهولة 
من خلال المقارنة أو المطابقة بين المصطلحات الواردة في استفسارات المستفيدين 
والمصطلحات التي تم اختيارها للتعبير عن المحتوى الموضوعي للوثائق. فإذا كانت 
نظم التكشيف المضبوطة أو المقيدة تنتقي مصطلحات التكشيف من آدوات أو لخات 
تكشيف معدة ومجهزة مسبقاًء فإن نظم تكشيف اللغة الطبيعية تنتقي المصطلحات 
التي تخد اتر عن الوحدات المكفغة ماش رة من اللصرص الى شس غا 
دون الاعتماد على آدوات مقيدة لضبط المصطلحات والتحكم فيهاء سواء تم هذا 
الاختيار يدوياً من قبل المكشف أو آلياً من خلال برنامج للحاسب الإلكتروني. 


تستند هذه النظم إلى مبدأ أساسي هو أن مؤلفي الوثائق عادة ما يبستخدمون 
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مصطلحات محددة للتعبير عن الأفكار التي يريدون توصليها. وهذه المصطلحات عادة 
ماتكون شائعة ومعروفة في المجالات التي يعملون بها. وينطبق هذا المبداً بشكل أكثر 
دقة على المجالات العلمية والتكنولوجية» بمعنى أن المؤلفين عادة مايتواصلون مع 
مجتمع القراء من خلال لغة شائعة ومعروفة لجميع المتخصصين في هذه المجالات. 
بالتالي يكون إقحام لغة وسيطة (اللغة المضبوطة) في هذه العملية آمرا اصطناعيا ينتج 
عنه وجود حاجز بين المؤلف والقارئ يتمثل في تلك اللغة الاصطناعية. 


فبالنظر إلى عملية التكشيف اليدوية التي تعتمد على الجهد البشري نجد آنه من 
الممكن التعرف إلى المفاهيم التي تتناولها الوثائق من خلال التحليل المفاهيمي 
للمحتوى المحوري في الوثيقة» والذي يظهر في مواضع محددة مثل العناوين وقوائم 
المحتويات والمستخلص ورؤوس الموضوعات الجانبية ومقدمة النص.. الخ. ومن 
خلال فحص تلك المواضع وتحديد الآهمية النسبية (التي عادة ما تستخدم فيها 
معايير كمية وكيفية» مثل تردد المصطلح وأهمية المصطلح للمستفيدين وعلاقته بدور 
المؤسسة)» لكل مفهوم ورد في تلك المواضع يحدد المكشف المصطلحات التي 
تستخدم في تكشيف الوثيقة. وعلى افتراض أن النص متاح في شكل إلكتروني» بالتالي 
يكون من السهل إعداد برمجيات مصممة خصيصا لكي تقوم بالتكشيف الاشتقاقي من 
خلال الاعتماد على المبادئ السابقة نفسهامثل تردد اأnصطlحlٽ «Term Frequency‏ 
موضع المصطلح ١٥1ازوه۴‏ ۳٠إ16.‏ وغيرها من المعايير التي يمكن الاعتماد عليها في 
بناء خوارزميات تحدد أهمية المصطلح بالنسبة للوثيقة التي يتم تكشيفها. 

ويمكن تتبع بداية نظم التكشيف الآلي المعتمدة على مبدأ تردد المصطلحات إلى 
السات مس القرن الشرين وخاصة اعمال لرهان وناكستدال. فد شهدت فلك 
الفترة بدايات الاعتماد على الحاسب الإلكتروني في إعداد النصوص للنشر. من هنا 
بدأت فكرة استخدام الحاسب الآلي في عمليات البحث والاسترجاع في الظهور» حيث 
وجد أنه مادامت النصوص متاحة صلا في شكل إلكتروني» يمكن الاعتماد على هذه 
التصر ص الإلكرر تة فى مابات الكيف رالا ستكلاص والا ترجا من قم قان 
التطورات في مجال الحاسبات الآلية ساعدت بشكل كبير على تكشيف النصوص آليا 


اللغة في تمتيل واسترجاع المعلومات 


بالاعتماد على اشتقاق المصطلحات من اللغة الطبيعية التى يستخدمها المؤلفون فى 

التعبير عن أفكارهم بشكل أكثر سهولة وسرعة. كما آنه أقل في الكلفة من نظم التكشيف 

اليدويةء مايحقق فعالية وعائدأ من خدمات التكشيف والاستخلاص (1958 ,طنا). 
وقد ساعد على تطوير نظم اللغة الطبيعية عاملان أساسيان هما: 


1. التطوير المذهل في تقنيات الحاسب الآلي التي ساعدت على تخزين النصوص 
الكاملة للكتب والدوريات وغيرها من أوعية المعلومات حتى أصبح مجال 
النشر الإلكتروني هو النمط السائد عالميا في النشر والتوزيع» ما ساعد على 
تيسير معالجة النصوص من حيث حجم الاختزان وسرعة المعالجة. 

2. التطور المذهل في مجال البرمجيات» والذي ساعد على إعداد برامج 
مصممة خصيصا لكي تقوم بعمليات التكشيف الآلي» ولا شك أن هناك نظم 
استرجاع معلومات تستطيع الآن معالجة النصوص باللغة الطبيعية بدرجة 
عالية من الدقة والكفاءة. 

وقد ساعد استخدام نظم اللغة الطبيعية في عمليات التكشيف على التخلص 

من عمليات البحث المفوض الذي يقوم فيه وسيط بين نظام الاسترجاع والمستفيد 
بعمليات البحث والاسترجاع» حيث أصبحت معظم نظم استرجاع المعلومات الآن 
تتضمن واجهات تعامل صديقة للمستفيد يمكن من خلالها التفاعل بين المستفيد 
والنظام دون الحاجة إلى وسيط يساعد على إعداد الاستفسارات وبناء استراتيجيات 
الببحث وإجراء البحث نيابة عن المستفيدين. 


إذاء فاللغة الطبيعية هي اللغة التي يستخدمها البشر في الحديث والكتابة» وعند 
تطبيقها في نظم استرجاع المعلومات يتم اشتقاق المصطلحات من الوثائق للتعبير 
عن المفاهيم ومضمون ومحتوى الوثائق. وتعتمد عملية الاشتقاق على أساليب 
رياضية أو إحصائية لتحديد آهم المصطلحات المستخدمة بالوثائق للدلالة على 
المفاهيم. ولا تحتاج نظم تمثيل واسترجاع المعلومات إلى بذل مجهود لتحديد 
أو تعريف المصطلحات سواء من الناحية البنائية ×ها١ر؟‏ أو الدلالية عنامه”م؟ أو 
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العلاقات المتداخلة كمنطئمهناةاءإ]!عام1 بين المصطلحات. فاللغة الطبيعية تشير إلى 
مايستخدمه الناس في التعبير عن المعلومات أو صياغة الاستفسارات دون الرجوع 


5.2.1 طرق التمثيل باللاغة الطبيعية 
وتوجد ثلاث طرق أساسية لاستخدام اللغة الطبيعية بصفة عامة لأغراض تمثيل 
واسترجاع المعلومات هی کالتالی: 


5.2.1.1 اشتقاق الأجزاء 


تعتمد هذه الطريقة على تحديد أهم المصطلحات الواردة فى الوثيقة واشتقاقها 
من أبرزالأجزاء التي تمثل المحتوى أو التي يركز عليها منشى الوثيقة. وتعد العناوين 
هم أجزاء الوثائق» لذلك يتم توظيفها في تحديد أهم المصطلحات التي تعبر عن 
بناء کشافات العناوین» والتی ابتکرها لوهان هانز بیتر ۴8٥s ۴)٤۲‏ ۸نا فی بداية 
الستينات من القرن الماضي. وقام بتطبيقها على البطاقات المثقبة باستخدام آليات 
المضاهاة الضوئية والميكانيكية في مكتبات مانشستر في عام 1864. وتعد كشافات 
العناوين تجا يدا لمایطلق عليه کشافات التبادیل ×٥لdہ!‏ ۵٥ا u‏ آ٥إ۴.‏ ویشیر 
المصطلح إل تطبق مفهوم التدوير ومبداً التبادیل اٹدائرية cyclic permutations‏ 
للرؤوس» ما يتيح للمستفيد الببحث عن أي كلمة من الكلمات الواردة في الرآس. 
وقد تم تطبيق هذاالمبدأ على عناوين الوثائق» ونتج عن هذا الأسلوب ثلاث طرق 
لتكشيف العناوين» سيتم شرحها بالتفصيل عند تناول طرق عمل نظم تكشيف اللغة 
الطبيعية وهي: 

Key Words In Context (KW1IC) Jll كشاف الكلمات المفتاحية فڦى‎ ٠ 

Key Words Out of Context (KWOC) JlJ كشاف الكلمات المفتاحة خارج‎ ٠١ 


Key Words Added to Context (KWAC) JlJ ةilضملا كشاف الكلمات المفتاحية‎ ٠ 


اللغة في تمتيل واسترجاع المعلومات 


کما یستخدم مع اشتقاق عبارات الموضوع Î Topic Sentence‏ غيرهامن الأجزاء 


المهمة التي تأتي في صورة عبارات وجمل يمكن أن تستخدم في تمثيل الوثيقة 
.(Luhn, Hans Peter, 1960)‏ 


5.2.1.2 اشتقاق المصطلحات 

تعتمد تلك الطريقة على اشتقاق كلمات من أي جزء من أجزاء النص فيما يطلق 
عليه التكشيف الاشتقاقى .[ndexing Derivative‏ وعادة ما یتم تطبیق خوارزمیات 
متنوعة لتحديد أهم المصطلحات الدالة على المفاهيم التي تناولتها الوثيقة. ولعل 
أبرز هذه الخوارزميات مايلى: 

Term Frequency تlalطbصnلا‎ aaرîت‎ - 


Term Position ٽٿlmlطصأا مو اضع‎ - 


- تردد المصطلح فى المو ضع Term Frequency Vs. Psition‏ 


- الوزنن - صاع N‏ 


- وزن المصطلح Term Wight‏ 
وتستخدم كل هذه الأساليب الإإحصائية في تحديد أهم المصطلحات الدالة على 
المفاهيم التي تعالجها الوثيقة» بالاعتماد على فرضية أساسية هي: آنه كلما ارتفعت 
معدلات تردد مصطلح معين في وثيقة معينة» فإن هذايعد مؤشرا أساسياً على أهمية 


هذا المصطلح في هذه الوثيقة. 
5.2.1.3 اشتقاق الأسئلة 


يستخدم هذا الأسلوب في نظم الرد على الاستفسارات» ويعتمد هذا النموذج 
فى الكلمات والعبارات المشقة مباشرة من أسعلة البش ر المستخدمة فى تمل 
wllتفlmرlٽ .Query Representation‏ 
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وتتكون اللغة الطبيعية بصفة عامة من نوعين من الكلمات هما: 
٠‏ الكلمات الفريدة sئwo1d Significant‏ 
* الكلمات الو ظيفية Function WO1dS‏ 


الكلمات الفريدة هي الكلمات التي تستخدم کمصطلحات تحمل معاني ودلالات 
موضوعية» أما الكلمات الوظيفية فهي الكلمات التي تشير إلى حروف الجر 
التذكير والتأنيث» حروف الوصل» وات التعريف والتتكير Articles, Proposition‏ 
Conjunction‏ مشJ‏ فى اللغة الإإنجليزية an, a, the, and, for, of, to, this, that, her,‏ 
N E E NT O ET‏ 
الان الات الد ور ها ني ات واه ادالات ا وا 
في قائمة اwتgıaاد .Stop List Î a — Word — List‏ 


وتستخدم قوائم الكلمات الفريدة في تحديد الكلمات التي يتم تكشيفها ومصطلحات 
الاستفسار» والتي عادة مايتم التعبير عنها بأنها أي كلمة لم ترد في قائمة الاستبعاد. 
وتتضمن قوائم الاستبعاد الكلمات الوظيفية كثيرة التواتر إضافة إلى أي كلمة فريدة عامة 
كثيرة التواتر في مجال ما أو شائعة الانتشار في لغة البشر. فعلى سبيل المثال مصطلح 
“Jay Engineering‏ فطلا غاما فی آي قاعدة بيانات هندسية إلى جانب الكلمات ذات 
الطبيعة llعlبرة Ephemeral words‏ مثل الكلمات الطنانة ئ4 B17z‏ مثل من ثم» ممالا 
شك فيه» على سبيل المثال» هذه الكلمات أيضا يتم وضعها في قائمة الاستبعاد ولا يتم 
وها فى ا اللكش والاسترجاع 

ويقوم كل نظام تمثيل واسترجاع معلومات ببناء قائمة الاستبعاد الخاصة به بناء 
على احتياجات المستفيدين منه وطبيعة المواد المكشفة بالنظام. كما يتم بناء قائمة 
مناظرة لقائمة الاستبعاد يطلق عليها قائمة الذهاب ئن 60. وتشتمل تلك القائمة 
على كل المضطلحات الراردة فى الرثقة بعد استبعاد الكلمات الراردة فى قائة 
الاستبعاد والعبارات الطنانة كثيرة التواتر (1992 ,إ1 .)Row‏ ۰ 


وكماهو الحال في قائمة الأستبعاد فإن قائمة الذهاب يتم تجميعها وقراءتها 
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آلياًء كما يتم مقارنتها بكل وثيقة يتم تمثيلها واستفسار يتم بحثه. ومن المعروف 
أن هذه القوائم تنمو بصفة دائمة مع نمو نظام استرجاع المعلومات. ومع ذلك فإن 
قوائم الذهاب أقل استخداماً في نظم اللغة الطبيعية من قوائم الاستبعاد التي تعد أكثر 
انتشاراً نظراً لسهولة إعدادها ووجود نماذج عامة لها إلى جانب انخفاض كلفة بنائها 
مقارنة بقوائم الذهاب. من ثم فإن قوائم الاستبعاد تتميز بأنها: 

٠‏ أقل في الحجم من قوائم الذهاب 

٠‏ سهوله إدارتها (التجميع والمعالجة) 

٠‏ قوائم الذهاب تستخدم في بناء لغات التكشيف المضبوطة مثل المكانز وقوائم 


وفي السنوات الأخيرة بدأت بعض النظم بناء قوائم كلمات كاكذا ۷۷0۲١‏ وهي 
قوائم مصطلحات شبه مضبو Ùطة Semi Controlled Vocabulary‏ في النظم الآلية لتمثيل 
واسترجاع المعلومات. وتشتمل قوائم الكلمات على المترادفات كصر«ه١ر؟‏ والمتضادات 
رها للمصطلحات الواردة في الوثائق التي يتم تكشيفها ويتم توظيفهافي دعم 
المستفيد أثناء عمليات البحث والاسترجاع. وتعد هذه النوعية من القوائم نموذجا فريدا 
لقوائم الذهاب التي تستخدم في ضبط عمليات البحث للتغلب على مشكلات الترادف 
والاشتراك اللفظي والبحث الشامل التي تواجهها نظم اللغة الطبيعية. 

وتقوم العديد من نظم استرجاع المعلومات على الإنترنت مثل محركات بحث 
الويب ببناء قوائم ذهاب وقوائم كلمات لاستخدامها في ضبط المصطلحات وضبط 
دلالتها. فمع النمو الهائل للويكيبيدياء أصبح من الممكن اعتماد قوائم مصطلحاتها 
كنموذج أساسي لقوائم الكلمات التي يمكن أن تكون أكثر كفاءة من أي أداة أخرى. 


5.2.2 أسلوب عمل نظم تكشيف اللغة الطبيعية 


تعتمد تلك النظم ببساطة على أنظمة التكشيف الآلية التي تقوم بإحصاء عدد 
مرات تردد المصطلحات فى النص من خلال اتباع الخطوات التالية: 


الفصل الخامس 


إعداد ملف بالكلمات المستبعدة ٤ئ1‏ ط50 يشتمل على الكلمات كثيرة 
التواتر More Frequently Repeated Terms‏ فى النصوص والتى لا تحمل 
اطا ها ررق الجر ارات لر و الا ر را ب رها 
والتي سبق ذكرها. 

يقوم نظام التكشيف الآلي بقراءة كلمات النص أولاً لاستبعاد الكلمات التي 
تتطابق مع الكلمات الواردة في قائمة الاستبعاد. 


يساعد استخدام قوائم الاستبعاد على تحقیق ما یلى: 
ااا : 


8 تصغير حجم الكشاف. 

٠١‏ سرعة عملية التكشيف. 

الفعالية» حيث لا يتضمن الكشاف إلا الكلمات القابلة للبحث. 

ومن الجدير بالذكر آنه عند تكشيف آنواع معينة من النصوص التي يكون لكل 


كلمة فيها أهمية ودلالة معرفية مثل النصوص الدينية» التشريعات» المعادلات 
الكيمائية والرياضية.. الخ» لايتم استخدام قوائم الاستبعاد آثناء عمليات التكشيف. 
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يقوم نظام التكشيف الآلي بحساب عدد مرات تردد كل مصطلح في الوثيقة 
ثم ترتيب تلك المصطلحات وفقا لعدد مرات ورودها في النص» بحيث ترد 
المصطلحات الأكثر ترددآعلى قمة القائمة تليها المصطلحات الأقل فالأقل. 
يتم اختيار مجموعة محددة من المصطلحات وفقا لنقطة القطع ۴؟oاهC‏ 
Point‏ المحددة بالنظام. وهي النقطة التي تحدد عدد المصطلحات التي 
يتم اختيارهاء ويمكن أن تعتمد تلك النقطة على مجموعة من المعابير أو 
الاحتمالات منها: 


٠‏ رقم مطلق لعدد المصطلحات مثال اختيار أكثر 20 مصطلحاً تردد في الوثيقة 


رق و طول اا اك كرون عد امات الو انق ق الكبيرة في 


الحجم أكبر من عدد مصطلحات الوثائق الاقا جا . مشال وثيقة حجمها 
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0 كلمة نختار أعلى 20 مصطلحاء أما إذا كان حجم الوثيقة 2000 كلمة فيتم 
ايار أعلى 0[ مس ط لات لر ها 


* اختيار المصطلحات التى وردت فى أماكن محددة من الوثيقة و/ أو عدد مرات 
ورودهافى تلك الأماكن. 


9 يمكن لبعض البرامج ج الأكثر تعقيدا أن تتشي أو تشغق العبارات التي تظهر 
بشكل متكرر في بعض النصوص. لذلك يمكن وصف الوثائق باستخدام 
مزيج من المصطلحات والعبارات. وتجدر الإشارة إلى أن عدد مرات ظهور 
العبارة يكون قل أهمية من عدد مرات ظهور المصطلح. وبدلا من اختيار 
المصطلحات والعبارات يمكن لبعض البرامج أن تقوم بتجريد الكلمات 
واختيار جذور تلك الكلمات فقط ءاممR ۷۲١‏ وذلك بالاعتماد على برنامج 
للجذع يعرف ب ۴۲”إ".ع)5. لذلك فإن جذر الكلمة 84٤‏ يمكن أن پشتق 
ويیخزن لكل بدائل هذه الكلمة التى Heat, Heater, Heating, Heated Jani‏ 
اقاي فإن بزامع الجتع اللي تسخن لحف مابات وبدابات الكلمات 
Word Suffix and Prefix‏ مثشل .1N8, ed, ied, pre, sub, s, es, ies‏ وفى اللغة 
الغربية نجد أنه يمكن جذع بدايات ونهايات الكلمات مثل الأآلف والللانن 
الآلف والنون (للمثنى) الياء والنون والألف والنون للجمع إلى آخره من 
المتطلبات التي تفرضها طبيعة وبنية الكلمات في اللغة العربية. 

6> يمكن إعطاء الكلمات أو الجمل أو جذوع الكلمات وزناً معيناً يعكس عدد 
ا . على سبیل المثال یمکن إعطاء الجذع 14۲ 
وزناًمعيناًيحدد أنه ظهر في نص معين 12 مرة. وتصلح عملية جذع الكلمات 
بشكل أكبر للغات اللاتينية» حيث توصف بأنها لغات لصيقة غروية. بمعنى 
نها تستخدم أسلوباً محدد لاشتقاق الكلمات بإضافة حروف معينة في بداية 
اللر ار وات قي قم ارال ا بلا ا0ال لري لا تفع 
لهذا النموذج اللصقي في بناء الكلمات» حيث تعرف بأنها لغة اشتقاقية ذب 1 
لتنوع الصيغ الخاصة بمعالجة مفردات اللغخة مثل الفعل والفاعل والمفعول» 
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حيث تعتمد اللغة العربية على قواعد متنوعة ومتشعبة بصورة كبيرة تميل إلى 
السماع أكثر منها إلى الثبات في البنية في معالجة المفردات» كما هو الحال 
في معظم مفردات اللغات اللاتينية. 


5.2.3 أنماط نظم تكشيف الاغة الطبيعية 


توجد أنماط عدة لنظم تكشيف اللخة الطبيعية ولكن أشهرها وأكثرها انتشاراً على 
الإطلاق الأنماط التالية: 

1. کشافات او فهارس النصو ص ع٥21 C٥«c0۲d‏ 

Permuted Title [dexes ةqlدابتاl کكشافات العناوین‎ .2 

Automatic Indexing التکشیف اللي‎ .3 

وسنتناول فيما يلي بإيجاز هذه الأنماط المختلفة. 


5.2.3.1 کشافات النصوص 


تعد كشافات النصوص للوثائق التي تتضمن نصوصاً مهمة مثل النصوص الدينية» 
والتي يكون لكل كلمة في النص قيمتهاء بحيث لا يمكن استبعادها من عمليات 
التكشيف. بالتالى فهذه الكشافات لا تستخدم قوائم استبعاد» حیث یتم تکشیف 
كل كلمات النص دون تمييز بينها. كما تستخدم هذه الكشافات أيضاً مع النصوص 
الصغيرة مشل الدساتير والتشريعات والقرارات والوصفات.. إلخ. 


ويتطلب إعداد كشافات النصوص أن يكون النص المُكشف متاحافي شكل مقروء 
آلياً. وقد ساعد النشر الإلكتروني على توافر عدد كير من النصوص في صيغ رقمية» ما 
ييسر عمليات تكشيف نصوصها. ويتيح هذاالنوع من الكشافات الوصول إلى المعلومات 
الدقيقة المتضمنة في النصوص الكاملة للوثائق وليس مجرد إشارات ببليوجرافية إلى 
الوثائق. كماييسر هذاالنوع من الكشافات عمليات التحليل اللخوي للنصوص للتعرف 
إلى تردد الكلمات والمصطلحات في سياقات معينة بهدف تحديد الدلالات المختلفة. 
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ويعد «المعجم المفهرس لألفاظ القرآن الكريم» لمحمد فؤاد عبد الباقي. 
و«المورد المفهرس لألفاظ القرآن الكريم» لروحي البعلبكي» من أشهر آنواع كشافات 
النصوص في اللغة العربية. وتجمع هذا المعاجم ألفاظ القرآن» وترتب موادهاء كما 
تضع الكلمة وأمامها الآية الكريمة التي وردت فيهاء مع التنبيه على المكي والمدني 
من هذه الآيات وحسب ما ورد فى المصحف» الذي تولت الحكومة المصرية طبعه. 
وقد رتپ دا اتي جيم أفاط العر ادارب ترتيباً هجائياً حسب مواد الكلمات 
الدالةء ثم سرد الألفاظء وذكر تحت كل لفظة عدد مرات ورودها في القرآن حسب 
الصيغة الإعرابية والاشتقاقية التى وردت بها. فإذا وردت الكلمة بصيغة واحدة فإنه 
هرك الإفارة إلى عند رات وروفغا سا مالين 54و 


وتجدر الإشارة إلى أن المستشرق جوستاف فلوجل» هو أول من حاول إعداد 
معجم مفهرس لألفاظ القرآن الكريم» حيث قام بإصدار فهرس موضوعيٌ لآيات 
القرآن الكريم سمّاه «نجوم الفرقان في أطراف القرآن» في نحو عام 1868 (عام 
7ه) - وقصد من وراء هذا المعجم - بحسب رأآي بعض الباحثين - إعادة ترتيب 
القرآن حسب الموضوعات» وقد مهد لمشروعه في تأليف معجمه الموضوعيّ «انجوم 
الفرقان في أطراف القرآن» بطباعة مصحفٍ كامل لكي يستعين به في معجمه» فوقع 
في أخطاء فاحشة وكثيرة جداً في عد الآيات» فجعل ما ليس برأس آية رأس آية 
ووقع الخلل في معجمه بشكل ظاهر (جلغوم» 2012). 

ومن أهم عيوب كشافات النصوص» خصوصاً اليدوية منهاء أنها تحتاج إلى وقت 
وجهد كبيرين لإأنجازهاء إضافة إلى صعوبة بنائها وتضخم حجمهاء حيث يتعدى 
حجمها في أحيان كثيرة حجم النصوص الأصلية. 


5.2.3.2 كشافات العناوين التبادلية 


يعتمد هذا النوع من كشافات اللغة الطبيعية على تكشيف كلمات العناوين بعد 
استبعاد الكلمات الواردة فى قائمة الاستبعاد. وتستند كشافات العناوين إلى فكرة 
أساسية مفادها أن عناوين الوثائق تحتوي على كلمات أو مصطلحات تدل بشكل دقيق 
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على المحتوى الموضوعي للوثيقة وخصوصاً في المجالات العلمية والتكنولوجية. 
بالتالي يمكن استخدام هذه المصطلحات في وصف المحتوى الموضوعي الوثائقي. 
ولهذاالنوع من الكشافات ثلاث أنماط أساسية كما آشرنا هي: 

.keyword In Context (KWIC) JlJ كشافات الكلمات الدالة في‎ 

.keyword Out Of Context (KWOC) Jll كشافات الكلمات الدالة خارج‎ 

.keyword Add to Context (KWAC) JlJ ةilض.nلا‎ ةlادنا كشافات الكلمات‎ - 


أ.. كشافات الكلمات الدالة في السياق 

يتم تكشيف الكلمات الدالة في عناوين الوثائق» حيث ترد الكلمة ضمن سياق 
العترات سيرة عن غيرها من الكلمات؛ 

مثال مقالة بعنوان 

«استخدام الحاسب الآلي في تطبيقات المكتبات» وأخرى بعنوان 

«تطبيقات تكنولو جيا المعلومات في المكتبات» 


يشتمل كلا العنوانين السابقين على كلمة واحدة يمكن أن ترد بقائمة الاستبعاد هى 


(في) بالتالي يكون شكل الكشاف كما يلي: 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
تطبيقات تكنو لو جيا المعلومات في المكتبات (2) 
تطبيقات تكنو لو جيا المعلومات فى المكتبات )2( 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
تطبيقات تكنو لو جيا المعلومات في المكتبات (2) 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 


تطبيقات تكنو لو جيا المعلومات فى المكتبات )2( 
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ب. كشافات الكلمات الدالة خارج السياق 


ترد الكلمات الدالة في هذا الشكل خارج السياق مميزة عن بقية العنوان مثال: 


استخدام ا لحاسب ؟ في تطبيقات المكتبات الآلي 

ا لحاسب الآلي في تطبيقات المكتبات؟ استخدام 
تكنولوجيا المعلومات في المكتبات؟ تطبيقات 
استخدام ا لحاسب الآلي في ؟ المكتبات تطبیقات 
تطبيقات؟ المعلومات في المكتبات تکنولو جیا 
استخدام؟ الآلي في تطبيقات المكتبات ا لحاسب 
تطبیقات تکنولو جيا ؟ في المكتبات E‏ 
استخدام ا لحاسب الآلي في تطبيقات؟ اللكتبات 
تطبيقات تكنولو جيا المعلومات في؟ e‏ 


ج. كشافات الكلمات الدالة المضافة للسياق 


لوصف الوثيقة» حيث يقوم المكشف بإضافة كلمات تصف المحتوى الموضوعي 
للوثائق وعادة مايستخدم في حالة العناوين المضللة أو العناوين القصيرة ويندر 
استخدام هذاالنوع من الكشافات حاليا. 


٠‏ ممیزات كشافات العناوين 
يتميز هذا النوع من الكشافات وكشافات التباديل بصفة عامة بما يلي: 


1. سرعة وسهولة الإعداد 
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2. لا يحتاج إلى خبرة سواء موضوعية أو مهنية في إعداده. 
3 انخفاض تکاليف إعداده. 


4. ظهور المصطلحات الجديدة في التخصص الموضوعي بسرعة في هذا النوع 
من الكشافات» بحيث تصبح متاحة للبحث والاسترجاع» إلا أنه يتأثر بشكل 
واضح بعيوب اللغة الطبيعية كوسيلة لتكشيف وهي العيوب التي سبق ذكرها 
ھن 


5.2.3.3 التكشيف الآلي 
Automatic Indexing‏ 
يستخدم هذاالأسلوب في تكشيف أجزاء معينة من النص» لعل أبرزها تكشيف 
الستخلصات خي وجد أن المستخاضص: خض رصا مستخاصات المولقين تحرى 
ددا فلبلا من الكلمات: إلا آنا ترىئ غلى أكبر قد رمن المعلومات الرازدة فى 
الوثيقة» كما أنها تصف بإيجاز محتوى الوثيقة. 
ويتم إعداد هذاالنوع من خلال تمييز كلمات المستخلص من خلال نظام 
التكشيف الآلي مع استبعاد الكلمات الواردة في قائمة الاستبعاد. ثم تكشيف كلمات 
المستخلص وفقاً للإجراءات التي تم عرضها عند الحديث عن نظم اللغة الطبيعية. 
وتتميز نظم التكشيف الآلي بمجموعة من الملامح الخاصة نذكر منها مايلي: 
1. بالطبع يمكن استخدام التكشيف الآلي في تكشيف النصوص الكاملة للوثائق 
وهو النمط السائد حالياً في معظم نظم استرجاع النصوص الكاملة وبعض 
النظم العاملة على شبكة الإنترنت. 
2. تسمح نظم التكشيف الآلي أيضاً بعرض النتائج بأساليب عدة منها تقسيم 
النتائج المسترجعة إلى فات فيما يعرف ب «Results Categorizati0¬‏ 
كماتسمح بتوجيه استفسارات ذات طبيعة خاصة مثل الاستفسارات التي 
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تتطلب إجابات على أسئلة ›Question Answering Query‏ كما تسمح أيضاً 
بالاستر جاع ما لغ .Cross Language Retrieval‏ 


وقد أدى ظهور شبكة الإنترنت وخاصة الشبكة العنكبوتية إلى ظهور آنماط وطرق 
جديدة للتكشيف منها استخدام أساليب تحليل الروابط وتحليل نصوص الروابط في 
عمليات التكشيف الآلي وهو ما سنتعرض له بالتفصيل عند الحديث عن التكشيف 
والفرز على الويب. 
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لغخات تمثيل واسترجاع 
المعلومات في العصر الرقمي 


6 مقدمة 

تمت مناقشة الملامح والخصائص المميزة لكل من اللغة الطبيعية واللغة المضبوطة 
في الفصل السابق. ويستكمل هذا الفصل مناقشة قضية اللغخة في تمثيل واسترجاع 
المعلومات في البيئة الرقمية مع التركيز على المراحل التي مرت بها لغات تمثيل 
واسترجاع المعلومات» والقضايا المتعلقة باللغة الطبيعية وأهميتها في البيئة الرقمية» 
ثم يستعرض الفصل مجموعة من لغات التمثيل الجديدة في البيئة الرقمية. 


6.1 تطورلغات تمثيل واسترجاع المعلومات 

بالنظر إلى تاريخ نظم تمثيل واسترجاع المعلومات تعد اللغة المضبوطة أكثر 
حداثة في الاستخدام والتطبيق من اللغة الطبيعية» حيث كانت اللغة الطبيعية هي 
اللغة الأساسية في التواصل والتمثيل والوصف على مر العصور. وقد مرت عملية 
تطوير لغات التمثيل بأربع مراحل أساسية هي: 

المرحلة الأولى: ترجع تلك المرحلة إلى العصور التي سبقت ظهور أي لغة 
اصطناعية مضبوطة وذلك حتى بداية القرن العشرين» حيث كانت اللغة الطبيعية هى 
اللغة الوحيدة المطبقة في كل نظم تمثيل واسترجاع المعلومات. وقد بدأ المستخدمون 
في تلك المرحلة إدراك القيود والمشكلات التي تنتج عن استخدام تلك اللغة مثل 
عدم الثبات في التعبير» الناتج عن مشكلات اللغة الطبيعية التي سبق عرضهاء والتي 
تشمل المترادفات والمشترل اللفظى. 

المرحلة الثانية: شهدت تلك المرحلة ظهور أول لغة مصطلحات مضبوطة والتى 
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تمثلت في تطوير خطط التصنيف كنموذج للربط المسبق. كما ظهرت أيضا قوائم 
رؤوس الموضوعات والمكانز في النصف الأول من القرن العشرين. وقدبدأفي 
هذه المرحلة ظهور الجدل حول استخدام اللغة الطبيعية مقارنة باللغة المضبوطة في 
عمليات تمثيل واسترجاع المعلومات. 

المرحلة الثالشة: شهدت عودة اللغة الطبيعية لتصدر المشهد مرة أخرى» كنتيجة 
لتطور نظم الاسترجاع التي تعتمد على الكلمات المفتاحية والنصوص الكاملة. 
واستمر تطبيق اللغات المضبوطة في تمثيل واسترجاع المعلومات في النظم 
الببليوغرافية مثل فهارس المكتبات في هذه المرحلة» ومع استمرار استخدام نظم 
اللغة الطبيعية لمعالجة النصوص الكاملة والمصطلحات المضبوطة لتمثيل واسترجاع 
النظم الببليوجرافية واحتدام الجدل حول أفضلية كل لخة ومزاياها وعيوبها ظهرت 
العديد من دراسات المقارنة بين اللغات لتحديد أفضل البدائل. وانتهت معظم هذه 
الدراسات إلى أن كل نظام له مزاياه وعيوبه. 

المرحلة الرابعة: بدت تلك المرحلة مع ظهور واجهات بحث اللغة الطبيعية في 
عمليات الاسترجاع» وقد استمرت اللغة المضبوطة مستخدمة في تلك المرحلة» 
ولكن في المشهد الخلفي فقط» حيث لم تعد تلك اللغات مرئية للمستفيد. وقد 
أطلقت عليها ميلستد (1995 ,ل4عاءا۷) المصطلحات المضبوطة غير المرئية فى 
ج الاه ا ا ر امت ارات لای ق 
معالجة اللغة الطبيعية في تحقيق ذلك» ما أدى إلى ظهور نظم تعتمد بالكامل على 
اللخة الطبيعية مث ن¡|م .(West Law and Lexis Nexis)‏ 


بها لغات تمثيل واسترجاع المعلومات؛ إلا أنه يمكن القول إن هذه اللخات قد تخطت 
المرحلتين الأولى والثانية» وما زالت تعمل في المرحلتين الثالثة والرابعة. 


لغات تمتيل واسترجاع المعلومات في العصر الرقمي 


6.2 لماذا نحتاج إلى اللغة الطبيعية والمضبوطة معا 
يوجد نوعان أساسيان من لغات التكشيف هما (قاسم 2000): 


۰ التكشيف بالتعيين: ويقصد به الجهد الفكري الذي يبذله المكشف فى 
التحقق من عناصر المحتوى الموضوعي للوثيقة ثم اختيار المصطلحات أو 
المداخل الكشفية التي تعبر عن هذه العناصر» وذلك بالاعتماد على قوائم 
رؤوس الموضوعات أو خطط التصنيف أو المكانز. 


٠‏ التكشيف بالاشتقاق: وفيه يتم اشتقاق أو اقتباس جميع المصطلحات من 
الوثيقة التي يتم تكشيفها وذلك بالاعتماد فقط على اللخة الطبيعية. 


إن الاستمرار في الاعتماد على اللختين كأساليب لتمثيل واسترجاع المعلومات» 
لاإبد أن يكون وراءه أسانيد دعت إلى ذلك» ولعل أبرز وهم الأسانيد والأدلة هو 
وجود مزايا وعيوب لكل منهماء والتي أبرزتها دراسات المقارنة المستمرة حتى وقتنا 
هذا. ويمكن إيجاز تلك المزايا والعيوب فى قدرة كل لغة من لغات التكشيف على 
مال حدق اعاتا الا 


6.2.1 قضية المترادفات 


الترادف هي المشكلة التي تنبع من إمكانية التعبير عن موضوع معين بعدة طرق 
مختلفة في وثائق مختلفة أو من جانب مكشفين مختلفين» مايعني وجود أكثر من 
مصطلح واحد للدلالة على موضوع أو مفهوم معين. مثال لذلك: إذا أردنا التعبير 
عن مفهوم مثل التلفزيون نجد العديد من المصطلحات الدالة على هذاالمفهوم 
مل تلفزيون» تلفازء تي في.. الخ أو أردنا استخدام مصطلح واحد مقنن للتعبير 
عن مفهوم التليفون المحمول يوجد العديد من المصطلحات المتداولة أيضامثل 
المحمول» الموبايلء النقال» الجوال» الخلوي وغيرها. ولايمكن بأي حال من 
الأحوال استخدام كل هذه المصطلحات للتعبير عن مفهوم واحد عند استخدام 
اللخة المضبوطة» بالتالي لابد من الاختيار بينها. كما آنه لايمكن للمستفيد أو 
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الباحث أن يتذكر كل هذه المصطلحات عند البحث» ما يظهر الحاجة إلى لغة 
مقيدة تضبط المصطلح المستخدم وتحيل إليه من الأشكال غير المستخدمة. 


وعد قضية المترادفات إحدى أهم القضايا الجدلية التي تناولتها دراسات استرجاع 
المعلومات؛ حيث تشير معظم تلك الدراسات إلى أن القدرة على معالجة المترادفات 
أحد أهم عيوب اللغة الطبيعية. وعلى الجانب الآخر عند استخدام اللخة المضبوطة في 
عمليات تمثيل واسترجاع المعلومات» فإن قضية المترادفات تتم معالجتها من خلال 
اختیار مصطلح واحد للدلالة على كل المترادفات في عمليات التمثيل والاسترجاع» 
مع بناء نظام محكم للإحالات من المصطلحات غير المستخدمة إلى المصطلحات 
المستخدمة. ويطلق على المصطلح المستخدم هنا للدلالة على المفهوم أو الكيان 
المصطلح المفضل 1٠۲١‏ ١١۲١٤ء۴‏ والمصطلحات غير المستخدمة يطلق عليها 
الكلمات غير المفضلة .Nonprefered 1erm‏ 


6.2.2 قضية المشترك اللفظى 

تظهر قضية المشتر ك اللفظى تبجة لظاهرة بطل غلبها تخدد المعاتيء» والتي تعد 
أيضاً من أبرز القضايا الجدلية في مجال المقارنة بين استخدام اللغة الطبيعية في 
مقابل اللغة المضبوطة. والمشترل اللفظى يدل على المصطلحات التى تحمل الشكل 
نفسه في الكتابة والهجاء وتختلف في المعنى. ويتم اكتشاف المعنى من خلال 
السياق الذي يرد فيه المصطلح. 

وعادة مايتم ترجمة مصطلح المشترل اللفظي إلى مصطلحين باللغة الإنجليزية 
ھما Homonymy and Polysemy‏ حیث شیر الأول إلى مجموعة من الكلمات لا 
علاقة بينها سوى اتفاقها في الصيغة والشكل (الجناس التام)» والثاني هو تعدد 
الي الكل وضو اقرب إلى المدرك: 

ومن آشة المصطلحات الى تحمل مشر كا نظا ررغ ايها وفقا للسياق 
الذي ترد فيه: جبن» جبن؛ شعر» شعر؛ عين (بيت) عين الإنسان» عين الماء؛ علم 
«Science‏ علم .Flag‏ 
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ويعد سيبويه (ت 180 هجري) أول من أشار إلى قضية المشترل اللفظى» حيث 
ذكره في تقسيمات الكلام في كتابه قائلاً: «اعلم أن من كلامهم اختلاف اللفظين 
المعنيين واتفاق اللفظين والمعنى مختلف). كما أفرد بن فارس (ت 395 هجري) 
للم ك الفظى ابا خاضا وعر قد قر له مى الأشح اك أن بكرن الافظ ما 
لمعن اوا کشر (محمد علي بيضون» 197(. 

بالتالي» الاشتراك اللفظي مشكلة ناتجة عن غياب التحكم في اللغة» وتعني وجود 
كلمات متشابهة فى الشكل ولكنها مختلفة فى المعنى» أي الكلمات المتطابقة في 
مفهوم مثل عطارد راء نجد له العديد من المعاني مثل: 

٠‏ شخصية أسطورية (إله التجارة والفصاحة عند الرومان) 

۵ مصطلح (اا٥N۲)‏ یدل علی کوکب سیار (عطارد) 

معدن الزئبق 

© طراز سیارات 

وتستطيع اللغخات المضبوطة التمييز بين المصطلحات المشتركة لفظياً من خلال 
استخدام تبصرات تحدد المعنى أو المجال بين قوسين مشال: 

عطارد (أساطير) 

عطارد (سیارات) 

عطارد (معدن) 

عطارد (کوکب) 

ولا تقتصر قضية المشترك اللفظي على اللغة العربية ولكنها تظهر أيضاً في 
اللإنجليزية.» حيث يو جد الكثير من المصطلحات التى تشترك فى البنية الحرفية» 
ولكنهاتدل على أكثر معنى في اللغة الإنجليزية» ولايفرق بينها سوى السياق الذي 
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وردت فيه مثل ء٤)ع Record, subject, drug, spring, duty,.Bank......‏ 
وتؤدي ظاهرة المشترك اللفظى أو تعدد المعانى إلى غموض فى الدلالة الاصطلاحية 
دال راجاق ببب ع الان أو اف اليح باسعخاا م امات 
مفردة. فعلى سبيل المثال إذا قام باحث باستخدام مصطلح مثل شعر في عملية البحث 
بصورة مستقلة» من الممكن للنظام أن يسترجع عددا كبيرا من الوثائق التي ليس لها علاقة 
بالمعنى الدلالي الذي يقصده الباحث. ويرجع ذلك إلى أن المصطلحات عادة ما تكون 
غامضة في حد ذاتها ويزول عنها الغموض عندمايتم ربطها بغيرها من المصطلحات 
وفتدوشعهاقی ساق هخاد وقد اشار کل من لانکستر وورتر Lancaster and)‏ 
(warner, 1993‏ الى ا ار ي اجان وهي عادة مشكلة نظرية أكثر منها 
مشكلة عملية» ذلك آنه نادرأ ما تجد باحثايبحث عن كلمة مستقلة منفردة (عادة ما 

تكون غامضة) ولكنه عادة ما يربطها بكلمات أخرى تزيل الغموض عنها. 
وتعتمد اللغة البف بو طة قلي اسالبب رة للب على متكا المشد ك 
اللفظي؛ حيث يتم تفسير المعنى المقصود للمشترل اللفظي باستخدام الهوامش التي 

ترد بين قوسين ().() لتخصيص المعنى السياقي للمشترك اللفظي مثل: 
عين (عضو الإبصار) 
Duty [tax]‏ 


. [duty [responsibility ] 


4 6.2.3 قضية البحث الشامل 


اع هله الش كا عن غاب الك م في الل ا يفط رالسور ل عن إجرة 
البحث إلى البحث بكل المصطلحات المتصلة دلالياً حتى يمكنه استرجاع كل أشكال 
ومرادفات المصطلح. بالتالي يسترجع كل النتائج الممكنة. وعادة ماتجمع اللخات 
المقيدة هذه المصطلحات المتصلة ببعضها بعضاء إماهرمياء كماهو الحال فى 
خطط التصنيف» وإما دلالياًء كما هو الحال في المكانز وقوائم رؤوس الموضوعات. 
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4 6.2.4 قضية البنية 


لكل لغ بها الخاصة و لکن كيف يمكن الت ر عن تلك البشة عند اهار اة 
الطبيعية لتمثيل واسترجاع المعلومات؟ نفترض مثلاً أنه توجد وثيقة تم تمثيلها بثلاث 
مصطلحات باللغة الطبيعية هى: 084ا الولايات المتحدة الأمريكية» sع1انAutonab‏ 
السيارات»اليابان .«2مهJ‏ فا ال من الممكن أن تكون عن تضدي ر السيارات 
اليابانية لأمريكا أو عن تصدير السيارات الأمريكية لليابان. ويتبيْن أنه مع عدم وجود 
بنية واضحة لعلاقة المصطلحات توضح البناء اللغوي» يصبح من الصعب تحديد 
أي دولة هي التي تصدر للأخرى عند استخدام تلك المصطلحات الثلاثة في تمثيل 
الوثيقة» من دون أي معلومات أخرى عن البناء اللغخوي (بناء الجمل). 


هذه المشكلة يمكن التغلب عليها بسهولة باستخدام رموز الأدوار في اللغة المضبوطة 
وهي عبارةعن رمز أو رقم يحدد العلاقة البنائية ماكر هااهاءR‏ ×هاملء بين المصطلحات. 
ففي المشال السابق يمكن أن نستخدم رقم (1) للدلالة على المصدر ونضعه بعد المصطلح 
اليابان (1) بهذا الشكل (1) ١م[‏ للدلالة على أن اليابان هي المصدر. كمايمكن أن 
تخصص الرقم (2) للدلالة على الدور الثاني وهو المستورد وتخصصه لأمريكا (2) أو (2) 
4. وتساعد هذه الرموز التي تسمح بها اللغة المضبوطة على معالجة قضية الخلط الذي 
يظهر نتيجة التداخل في البناء اللغوي» والتي لايمكن معالجتها في اللغة الطبيعية. 


4 6.2.5 قضية الدقة 


تسعى كل نظم تمثيل واسترجاع المعلومات إلى استخدام لخة تستطيع التمثيل 
الطبيعية في تمثيل واسترجاع المعلومات لسببين رئيسين هما: 

الأول: أنه لا توجد آي معالجة إضافية مثل الشرح أو التعبير باستخدام الهوامش 
والإحالات عنداستخدام اللغة الطبيعية في التمثيل والاسترجاع. 


الثانى: أنه لا توجد حاجة إلى التفسير فى اللغة الطبيعية» حيث إن المصطلحات 
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التي يتم الببحث بها من جانب المستفيد هي نفسها مصطلحات اللغة المستخدمة في 
التمثيل والاسترجاع. 

وعلى الجانب الآخر فإن اللغة المضبوطة هي لغة اصطناعية وهي أقل ثراءً من 
اللغة الطبيعية فى تمثيل الوثائق واستفسارات المستفيدين. كما أن اللغة المضبوطة 
آل تا ودر ےی ایت ای و ج فلك الى ارات سالجةدلة 
ويبدو أن تفسير مصطلحات اللغة المضبوطة أمر لا مفرٌ منه؛ حيث إن المفهوم أو 
المعنى الدلالي لكل مصطلح يتم تحديده لخدمة نوعية معينة من المستفيدين» وقد 
يؤدي هذا التفسير إلى عدم الدقة في تمثيل واسترجاع الوثائق التي تعتمد على 
اللغخة المضبوطة. 


4 6.2.6 قضية التحديث 

تعد قضية التحديت من أبرز مزايا اللخة الطبيحية» نظرا لأنها لخة ديناميكبة تعتمد 
على المصطلحات التي ترد بالوثائق» من ثم فهي دائمة التحديث دون تدخل بشري 
في إجراء عملية التحديث. وفي المقابل تحتاج اللغة المضبوطة إلى التحديث الدائم 
والذي يعد أبرز عيوب اللغة المضبوطة» حيث إنها تتقادم بمجرد صدورها ويزداد 
معدل تقادمها يومياً. فالمصطلحات الجديدة تحتاج إلى أن يتم استخدامها في التمثيل 
الجديدة إلى إضافة وتحديد علاقات وإحالات وتدقيق حتى يتم إدراجهافي اللغة 
وينتج عن ذلك أن مصطلحات اللغة المضبوطة عادة ما تكون متقادمة» بينما يتم 
تحديث مصطلحات اللغة الطبيعية بصفة دائمةء ما يجعل الاستفسارات التى تحتوي 
على مصطلحات جديدة تواجه صعوبة في استرجاع الوثائق الصالحة عند استخدام 
اللخة المضبوطة» بينمايتم استرجاع الوثائق الحديثة والقديمة التي تشتمل على تلك 
باستخدام اللغة الطبيعية. 
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4 6.2.6 قضية الكلفة 


عادة ما تستغرق عملية بناء وصيانة وتعليم استخدام اللغة المضبوطة وقتاً طويلاً 
في تمثيل واسترجاع المعلومات» ويتم ترجمة ذلك الوقت المستغرق في هذه 
الأنشطة إلى كلفة في نظم تمثيل واسترجاع المعلومات. وعلى الجانب الآخر فإن 
اللغة الطبيعية هي اللغة التي يستخدمها الناس في التواصل فيما بينهم» من ثم فهي 
لا تتطلب أي كلفة إضافية؛ حيث لا تحتاج إلى تدريب أو صيانة عند استخدامها في 
تمثيل واسترجاع المعلومات. 


4 6.2.7 قضية التوافق 


تظهر الحاجة إلى تحقيق التوافق بين اللغتين المضبوطة والطبيعية في بعض الأحيان 
في م فل وامغرجام الماريات عها دفو الحا إلى تير الغا المسعة 
في النظام أثناء تطويره أو عندما يحتاج المستفيد إلى إجراء البحث في أكثر من قاعدة 
بيانات في الوقت نفسه. لذلك تظهر قضية التوافق في نظم اللغة المضبوطة نظراً لأن 
كل لغة من اللغخات المضبوطة لها ملامحها وخصائصها المميزة لها. فعلى سبيل المثال 
قد يكون من المستحيل استخدام خطة تصنيف في إجراء البحث بالفهارس المتاحة 
على الخط المباشر بدلا من قائمة رؤوس الموضوعات (مكتبة الكونجرس). في حين 
أنه عنتما كم باه نظام اعمادا على الغا الطبيية فإنه الا توجة حاية إل القرافق غذد 
التغيير» حيث إن اللغة الطبيعية مستقلة ومتوافقة مع نفسها من حيث البنية الاصطلاحية 
ومن حيث البنية الرمزية أيضا (لا توجد رموز مستخدمة خارج إطار اللغة بحروفها 
وكلماتها التي تحمل دلالات معينة). وعادة مايطلق على هذه القضية مصطلح التشغيل 
التبادلي المستخدم في مجال الحاسبات الآلية (°14,2004 & ع«ء2). 


ويمكن تلخيص مزايا وعيوب كل لغة فيما يلى: نقاط قوة ومزايا اللغة المضبوطة 
تتمشل في معالجة المترادفات والمشترك اللفظي والبناء اللغوي» والتي تعد أيضاً من 
آهم عيوب اللغة الطبيعية. وبالمثل فإن نقاط ضعف اللغة المضبوطة تتمثل في الدقة 
اديت وة و الو فى راي ساط ت ةوك اللا اة 
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وقد شار رویلی (116 ,1992 ,رماس ‌۸) إلى ما یلی: 


«ايوجد اتفاق عام على ضرورة استخدام كل من اللغة الطبيعية والمضبوطة معا 
كمايوجداتفاق عام على أهمية كل منهما في تمثيل واسترجاع المعلومات بأي نظام. 
وبعبارة أخرى أن كلا منهما له أهميته في نظم تمثيل واسترجاع المعلومات. ولكن 
هل سيظل الأمر هكذا في المستقبل؟ هذا السؤال مازال مفتوحا ولم تتم الإجابة 
عليه بسهولة في بيئة الويب الذكي والدلالي» إلا من خلال تطوير آدوات تجمع ما 
بين اللغتين». 


6.3 لغات تمثيل واسترجاع المعلومات في العصر الرقمي 


تم استخدام اللختين المضبوطة والطبيعية بالتوازي في نظم تمثيل واسترجاع 
المعلومات في عالم مصادر المعلومات المطبوعة. ومازال التدخل البشري في 
التمثيل والاسترجاع قائما في عالم مصادر المعلومات المتاحة على الخط المباشر» 
ما أعطى اللغة المضبوطة مكانا ثابتاً في تلك البيئة. أما في العصر الرقمي فإن اللغة 
الطبيعية أصبحت النموذج الأساسي لتمثيل واسترجاع المعلومات» ونادرأماتستخدم 
اللخة المضبوطة أو تستخدم على نطاق أضيق بكثير من استخدام اللغة الطبيعية. 
ويرجع ذلك إلى وجود العديد من الملامح المميزة للمعلومات في البيئة الرقمية» 
لعل ابرڑ ها ما يلي: 
٠ه‏ أن الغالبية العظمى من المعلومات الرقمية متاحة على الإنترنت فى صورة 
نصوص كاملة» إلا أنها تفتقر إلى المراجعة واا ھا کے ااب 
الكامل لآليات ضبط الجودة. ۰ 
فو رة خا المعلرمات قي ها اة رة جد حيبت تي المخلومات 
بسرعة كبيرة اة مستمرة. 


٠‏ تنموالمعلومات فى ذلك الفضاء الرقمى بسرعة كبيرة وبمعدلات أسية 
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لذلك أصبح من الصعب تبرير استخدام اللغة المضبوطة المكلفة من حيث 
الوقت والمال في تلك البيئة التي تتسم بالديناميكية العالية والتغير السريع. من ثم 
اعتمدت معظم أنظمة استر جاع المعلومات الشهيرة المتاحة على الإنترنت (محركات 
بحث الويب) في تنفيذ مهام تمثيل واسترجاع المعلومات على اللغة الطبيعية» ولم 
تستخدم مطلقا اللغة المضبوطة» بينما اعتمد عدد قليل من تلك النظم على قوائم 
الكلمات اكا »۷00١‏ والتي تعد قرب نموذج لاستخدام اللغة المضبوطة في تمثيل 
واسترجاع المعلومات في بيئة الإنترنت. 

وعلى الرغم من ذلك» فإن اللغة الطبيعية ليجب أن تكون اللغة الوحيدة في 
تمثيل واسترجاع المعلومات على الإنترنت» حيث إن ضعف الضبط الاصطلاحي 
قد يكون السبب الرئيس لعدم دقة النتائج التي يتم استرجاعها من نظم استرجاع 
الإنترنت. وبصفة عامة فإن مهمة الضبط الإصطلاحى قد تنتقل من على عاتق 
أخصائي المعلومات ويتحملها المستفيد الهاي ماغدا اللخة الطبيعية في 
تمثيل واسترجاع المعلومات» حيث يحتاج المستفيد في العصر الرقمي إلى التفكير 
في المصطلحات المترادفة التي تتطلبها عملية البحث. فالتفاعل المتزايد والدائم بين 
المستفيد ونظم استرجاع المعلومات على الإنترنت سوف يمكن المستفيد من أآداء 
مهمة الضبط الاصطلاحي بفاعلية وكفاءة. ومع هذا التطور سوف يتحول دور أخصائي 
المعلومات من الوسيط في عملية البحث إلى المدرب على إجراءات البحث وكيفية 
الوصول إلى المعلومات» إلى جانب تقديم الدعم الفني للمستفيد في عملية البحث 
والاسترجاع. لذلك فالسؤال عن مستقبل الضبط الاصطلاحي في تمثيل واسترجاع 
المعلومات في البيئة الرقمية قد يكون من الصعب الإجابة عليه حتى الآن. مع ذلك 
فإنه توجد أربع طرق مختلفة لاستخدام الضبط الاصطلاحي في تمثيل واسترجاع 
المعلومات :(Lancater & Warner,1994)‏ 


2. استخدام اللغة الطبيعية في كل من عمليات التمثيل والاسترجاع كوسيلة 
مساعغدة على البحث والربط المسيق: 
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3. استخدام اللخة المضبوطة للتمثيل فقط» ويتم ضبط المصطلحات في عمليات 
الاسترجاع من خلال لغة مضبوطة مخفية أو ضمنية في النظام. 

4. استخدام اللغة المضبوطة في عمليات الاسترجاع فقط» وقد تم تطبيق هذا 
النموذج في نظم یطلق علیھا مکانز البحث فقط Search 01y eas rus‏ والتی 
يطلق عليها َ2 الضبط الاصطلاحى .Post- Controlled Vocabulary jil‏ 


وبالنظر إلى طبيعة وخصائص نظم تمثيل واسترجاع المعلومات في البيئة الرقمية» 
نجد أن البديل الثانى هو أكثر البدائل ملاءمة للتطبيق فى تلك البيئة» حيث إن النموذجين 
الثالث والرابع يعملان على تخزين اللغة المضبوطة على الخط المباشر لدعم عملية 
الببحث» والتي تبدو وكأنها بديل يمكن استخدامه لضبط المصطلحات عند الحاجة. 
ورغم ذلك فإن مجال تمثيل واسترجاع المعلومات قد شهد ذ ف السنوات الأخيرة 
ظهور مجموعة من اللغات الجديدة مثل التقسيم إل الفغات» الفغات الاجتماعية» 
الأنطولوجيات. ومع أن لكل لغة من هذه اللغات ملامحها المميزة» فإن جميع هذه 
الآدوات تم تطويرها لأغراض التمثيل والاسترجاع في البيئة الرقمية. 


6.3.1 علم التقسيم 
تم مناقشة هذا المصطلح ف تق المصطلح 


Taxonomy‏ من اللإإاصل وا ئن×ه)» والڌي ي يعني الترتيب أو التصنيف ویستخدم 
المقطع ه0 في الدلالة على القانون أو العلم. من ثم فإن المصطلح يشير إلى علم 

يم إلى فقات أو علم االتقسيم. وقد استخدم المصطلح في بدايته في علم الأحياء 
للإشارة إلى تصنيف الكائنات الحية (الحيوانات والنباتات)» ثم اكتسب المصطلح 
دلالة أوسع من معناه الضيق في علم الأحياء» حيث يشير حالياً إلى تصنيف الأشياء 
وامتد مفهومه إلى كل العلوم. وقد آشار جيلشرست (2003 ,ان٣‏ 6:1) إلى أن اول 
استخدام للمصطلح بمعناه الحديث ظهر سنة 1997 في مقالة عن ياهو ۲4100 والذي 
يعد من أوائل نظمة البحث في الإنترنت. وقد اشتهر بآنه أفضل دليل بحث استخدم 


نموذج التقسيم إلى فغات (أو علم االتقسيم). 
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وترجع جذور ر مصطلح علم التقسيم إلى خطط التصنيف والمكانزء فكما هو الحال 
في نظم التصنيف» تقوم أدوات (علم التقسيم إلى فشات)» بتعريف فقات محددة مسبقاً 
لإجراء عمليات التقسيم إلى فقات» وفقاً لقواعد علم التصنيف. وتعتمد نظم التقسيم 
إلى فقات على استخدام مستويات متنوعة من العرض - باستخدام النموذج الهجائي 
الرقمي ٤ن«عصن١ة۸ماه؛‏ حيث لا تعتمد على نظام تصنيف محدد. . ويتم التعبيرعن 
العلاقات الترابطية بين الفئات باستخدام الترتيب الهجائي لكل مستوى» وذلك بمضاهاة 
سلوب العرض والبناء الشائع في المكانز. وعلى خلاف خطط التصنيف والمكانز لا 
يستخدم علم التقسيم آي آلية أو نظام للإحالات» مايضعف من وظيفته كنظام لاضبط 
الاصطلاحي. وتعمل أدوات هذا النموذج على تيسير عملية التقسيم إلى فقات لدعم 
عمليات التصفح» والذي يعد أحد أهم نظم الاسترجاع بعد البحث. ويعد هذا النموذج 
فعالا وجذابا لمعلومات المؤسسات التي تسعى إلى بناء بوابات خاصة لتمثيل واسترجاع 
المعلومات» إلى جانب تطبيقاته في أدلة بحث الإنترنت (2003,ا115[ز6). 


ولعل أبرز أسباب استخدامه في بناء بوابات الشركات هو أنه نظام يساعد على 
استيعاب وتمييز المصطلحات التي تستخدمها الشركات والمؤسسات التجارية» 
إضافة إلى أنه أقل كلفة من آي عملية بتاء وصيانة لخة مضبوطة مكل المكائز. وبعد 
دليل الببحث ياهو (4100.00رdi)‏ ابرز نموذج لبناء تلك الأدوات وأكثرها a‏ 
على الانترنت (2006 .)Zhonghong, Chaudhry & Kh00‏ وتجدر اللإشارة إلى أن 
دليل البحث ياهو قد تم إغلاقه بعد عشرين عاماً من تشغيلة من 1994 حتى عام 
SEG E‏ 
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تم وصفه في الفصل الثاني بأنه العلم الذي يعتمد على أساليب علم التصنيف التي 
تتم من خلال تفاعل الإإنسان مع النظام )2007 .(Human System Interaction Vander,‏ 

ویقسم بیتر (2009 )۴)e,‏ علم المصطلح الاجتماعی إلى ثلاث فقات هى 
کالتالی: 

Broad Folksonomy :ةعwlgll الفو كسونومى‎ - 

هی أدوات تتیح لمنشى المصدر والمستفيدين الآخرين إضافة التعليقات والكلمات 
الدالة على المصدر سواء كان (صورة أو فيديو.. إلخ) أكثر من مرة. 

Extended Narrow Folksonomy :ةدتnnئlا الفو كسونومى الضيقة‎ - 


وهي الأدوات التي تتيح لمنشى مصدر المعلومات والمستفيدين الآخرين التعليق 
ولکن لمرة واحدة فقط. مثال على ذلك .Flicker zan‏ 
- الفو كسونومى lلغضيقة: Narrow Folksonomy‏ 


فى هذا النمط يكون من حق منشئ مصدر المعلومات فقط إضافة الكلمات الدالة 
والتعليقات للمصدر؛ ويكون من حق المستفيدين الآخرين البحث باستخدام هذه 
الكلمات فقط. مثال على ذلك موقع YouTube‏ . 


ويرتبط علم المصطلح الاجتماعي ارتباطاً وثيقاً بعمليات التوسيم الاجتماعي 
Social Tagging‏ والتي تعد أحد مخرجاته الأساسية» حيیث يتم بناؤه بالاعتماد على 
التوسيم الذي يقوم به المستفيدون أثناء عمليات البحث والتصفح. وعادة ماتأخذ 
المصطلحات الاجتماعية شكل سحابة التوسيم 1٠2 ٤10٥۵‏ والتي تمثل عرضا 
مرثياً لعمليات التوسيم التي يقوم بها المستفيدون. ويتم استخدام مصطلح سحابة 
التوسيمات بديلاً للمصطلحات الاجتماعية أو مرادفاً لها. وعلى عكس التصنيف 
فإن المصطلحات الاجتماعية لا تظهر لعرض أي علاقات هرمية بين مكوناته 
(التوسيمات). ويهتم علم المصطلحات الاجتماعية بحفظ العلاقات الترابطية 
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Associative Relationship‏ بین التوسیمات ويقوم بعرضها فی ترتیب هجائی من 
دون إحالات أو حواشي من تلك التي يتم تطبيقها في المصطلحات المضبوطة (مثل 
المكانز). من ثم فإن المصطلحات الاجتماعية لا يمكن معاملاتها بالطريقة نفسها 
الخاصة بالمصطلحات المضبوطة» والتى تمت مناقشتها سواء من حيث البناء أو 
التجميع آو حتى الوظيفة. إضافة إلى ذلك» فإن كل نظم المصطلحات المضبوطة 
والتي تتراوح ما بين خطط التصنيف إلى علم االتقسيم (التقسيم إلى فشات)» يتم 
بناؤها بالاعتماد على أخصائي المعلومات» بينمايتم بناء وتطوير نظم المصطلحات 
الاجتماعية - والتي تعد نموذجاً جديد أ للغات تمثيل واسترجاع المعلومات في البيئة 
الرقمية - بالاعتماد على المستفيد النهائي ولصالحه. وذلك بغخرض الاستخدام في 
بيئة الجيل الثاني للويب 2.0 والتي لا توجد لها حدود فاصلة سواء في الموضوع أو 
الثقافة أو حتى الجغرافيا )2007 .(Munk & Mork,‏ 


وأثناء عملية التوسيم يمكن للمستفيدين أن يقوموا باختيار آي وسم اصطلاحي 
من المصطلحات الاجتماعية المتاحة» كما أنهم يمكنهم وضع أو اختيار آي وسم 
اصطلاحي جديد من مصطلحاتهم للدلالة على الموضوع الذي يتم وسمه. ونظرا 
لن كل التوسيمات في المصطلحات الاجتماعية تكون في صورة روابط فائقة 
تمكن المستفيد من تصفح المتاح من التوسيمات على المواقع من خلال روابط 
التوسيمات الفائقة بجانب إمكانية استخدامها في البحث. وقد تم مناقشة مزايا 
وعيوب المصطلحات الاجتماعية كلغات لتمثيل واسترجاع المعلومات بشكل مكثف 
فى العديد من الدراسات والببحوث ولعل Îبرjھi: e.g. Noruzi, 2006; Spelle1,)‏ 
2006 ,14 :;2007) سواء من حيث مقارنتها بعلم التصنيف والتقسيم إلى فقات أو 
من حيث علاقاتها بنظم اللغة المضبوطة. 

وبإيجاز يمكن القول إن المصطلحات الاجتماعية تحمل كل مزايا وعيوب اللغة 
الطبيعية مع إضافة ملمح واحد من ملامح اللغات المضبوطة وهو الترتيب الهجائي 
والعرض المرئي للتوسيمات. من ثم فإن المصطلحات الاجتماعية تعمل وظيفياً كلغة 
طبيعية أكثر من كونها لغة مضبوطة في بيئة تمثيل واسترجاع المعلومات الرقمية. 
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وقد لخص بيتر فئات التعليقات الاجتماعية (203 م) ,2009 ,۴6 فى الشكل التالى: 


فئات التعليقات الاجتماعية 
التموذج اللغوي النموذج الوظيقى النموذج التنصى 
م 
الكلمات التعبيرات الهجا مرتبطة بالموضوع ر مطابقة الس 
ت ج 
r 2‏ س e‏ 
تعليقات الكلمة الواحدة صحیح وىة زقا ستو ا و متباينة ومتنوعة 
ر ب ت ر ك 
: بر ا > ر اا 
الكلمات (جمل) خطا مرتبطة بالمحتوي م ا غير مطاقة للنص 
ر ہرس ہرس رس رس 
س ااا 
غير محددة 
> 


شكل (6.1) فئات التعليقات الاجتاعية 


6.3.3 الأنطولوجيات أو علم المصطلح الواحد 


علم المصطلح الواحد أو الأنطولوجي استخدم في مجال الفلسفة للدلالة على 
مفهوم دراسة الوجود. وقد سك المتخصصون في مجال الحاسب الآلي وخاصة 
الذكاء الاصطناعي مصطلح الأنطولوجي في عام 1980 للإشارة إلى تجميع 
وتمثيل المعرفة عندمايتم وضع إطار مفاهيمي لمجال معين أثناء تطوير النظم 
الخبيرة()1997 , .(Vickery‏ 


ويتم تعريف مصطلح الأنطولوجيا في مجال هندسة المعرفة أو بشكل أوسع في 
علم الحاسبات والمعلومات على آنه عملية التخصيص الصريح والرسمي للأطر 
المفاهيمية المشتركة (1993 ,مطس6). كماتم استخدامه للتعبير عن رؤية تيم بيرنر 
لي 8۲٥۲ [e٩‏ 1۳ا الخاصة بالويب الدلالي» حيث عدّه مكوناً أساسياً من مكونات 
رؤيته لبناء بيئة ويب تستطيع تمييز المعاني والدلالات من خلال الاعتماد على 
الأنطو لوجيات )2001 , .(Berner — Lee , Henler & Lassila‏ 
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وقد وصف تيم لي الأنطولوجيات بأنها مجموعة من العبارات يتم كتابتها بلغة 
إطار وصف المصادر ۸2۴ والتي تحدد العلاقة بين المفاهيم وتضع قواعد منطقية 
لمسببات كل منها. ومن خلال متابعة الروابط التى تستخدمها الأنطولوجيات 
المخصصة تستطيع الحاسبات فهم المعنى الدلالي للبيانات التي تتضمنها صفحات 

ويو جد أشكال متنوعة للأنطولوجيات حصرها فيشولد (1996 , ١01طءء۷)‏ فى 
أربعة شكال ترارح ما ين غير الرسهة والرسة الصارمة ولك من وة قر 
هندسة المعرفة «٤٤۲1٣8‏ 1عہء know 1 edge‏ وهی کكالتالى: 

النوع الأول: هو الأنطولوجيات غير الرسمية تماماء والتي يتم التعبير عنها 

النوع الثانى: الأنطولوجيات غير الرسمية ذات liollء structured informal‏ 
5 وهى الأنطولو جيات التى توظف اللغة الطبيعية بطريقة محدودة وتحمل 
بنية واضحة بغخرض تقليل الخموض وزيادة الوضوح في عرض المعرفة. 

النوع الثالث: يطلق عليه الأنطولوجيات شبه الرسمية Semiformal Ontologies‏ 
والتي يتم التعبير عنها باستخدام لغة اصطناعية محددة بشكل رسمي. 

النوع الرابع: هو الأنطولوجيات الر سمية الصارمة Regorously formal outologics‏ 
والتي تحدد المصطلحات بدقة باستخدام الدلالات lئلر—مية Formal sementic‏ 
والنظريات المرتبطة بها. 

وعلى الرغم من عدم وجود وصف واضح لنوع الآنطولوجيات المرتبطة ببيئة 
الويب الدلالي» إلا أن النموذج المحتمل للاستخدام في هذا المجال هو النوع الرابع 
المتمثل فى الأنطولوجيات الرسمية كما أشار فيشولد (1996 , 01dطعء۷).‏ 

وتشتمل العلاقات بين المفاهيم التي تتضمنها الأنطولوجيات: 


المترادفات ۸۷۳٣3‏ ۸10ك. 
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المتضاداٽت .Antonymy‏ 
المتشابهات إ٣ر«ممرط‏ (التى تعبر عن العلاقات). 
الحزئيات (الحزء) والتى تعبر عن علاقة الجزء .(The Part of relati0n)‏ 


هذه العلاقات عادة مايتم استخدامها في عروض إطار وصف المصادر ۸2۴ 
مها والتي تستخدم في بناء الويب الدلالي (2003), ۲1٤‏ [إ6. 


إضافة إلى ذلك فإن الأنطولو جيات لابد أن تحدد قواعد منطقية للأسباب المتعلقة 
بالمفهوم والعلاقات المرتبطة» والتي تأخذ شكلاً ثابتاً. على عكس مايتم في نظم 
المصطلحات المضبوطة التقليدية مثل المكانز» والتي عادة ما تكون العلاقات فيها 
ثابتة» فضلاً عن أنها يجب أن يكون بها آليات تعكس التعبير المتواصل عن التحديثات 
التي تتم على المفاهيم وإجراء تلك التحديشات آلياً. وتسعى الأنطولوجيات مع 
غيرها من أدوات الويب الدلالي إلى تحقيق الفهم للدلالات والمعاني التي تحملها 
المعلومات المتاحة من مصادر الويب من خلال أجهزة الحاسبات والبرمجيات 
المستخدمة في تلك البيئة. علاوة على ذلك فإن وظيفة الأنطولوجيات تختلف بشكل 
كبير عن المصطلحات المضبوطة التقليدية (المكانز» خطط التصنيف.. الخ)» حيث 
إنها تستخدم لتحقيق الفهم الدلالي لمصادر الويب باستخدام الحاسبات وليس تنظيم 
عمليات استخدام المصطلحات في نظم تمثيل واسترجاع المعلومات. 

لقد تطورت الملفات في العصر الرقمي بصورة كبيرة وتم إجراء العديدمن 
البحوث والدراسات في هذا المجال على الأدوات الجديدة الملائمة لتمثيل الملفات 
مثل علم التصنيف (التقسيم إلى فقات)». علم المصطلح الاجتماعي» (التوسيم 
الاجتماعى) الأنطولوجيات. كما تجرى دراسات حول الانتقال الاصطلاحى 
Votabilaty switch‏ والذي يعد طريقة للتحول الآلي من لغة تمثيل واسترجاع إلى 
لغخة أخرى بالمجالات الموضوعية المختلفة. ويعد هذا التحول مجالا خصبا لحل 
مشكلات. أو إنهاء الجدل الدائر حول استخدام اللغة الطبيعية أو اللغة المضبوطة» 
فبمجرد تطبيقه سوف يصبح لدى المستفيد فرصة الاختيار بين اللغة التي يرغب في 
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تطبيقها في عملية البحث» ولن يكون مضطراً إلى الالتزام أو محدوداً بنطاق لغوي 
مدد سواء كان مضبو ظا أو اصطاعيا فضلاً عن إمكانية كسر الحواجز الموضوغة 
بين المجالات العلمية واستخدام كل المعلومات العلمية المتاحة بطريقة أكثر فعالية 
وكفاءة (1993 ,12ء8). فالتحول الاصطلاحي يختلف تماما عن استخدام الأنماط 
التقليدية للتحول المعروضة باستخدام لغة مضبوطة غير مرئية ٥0") 011 ed‏ ماطذیزvہ1‏ 
Vocabulary‏ في مر يڻ اساسیی هما: 


الأول: أن التحول الاصطلاحي يعتمد بكثافة على إجراء الببحث باستخدام اللغة 
الطبيعية. 


الثاني: التحول الاصطلاحي يتعامل مع لغات تمثيل واسترجاع المعلومات في 
العديد من المجالات (أي مجالات معرفية متنوعة)» بينما تتعامل المصطلحات 
المضبوطة المخفية أساساً مع الترجمة ما بين اللغتين الطبيعية والمضبوطة على الخط 
المباشر. فعلى سبيل المثال قام سشاتز 5٥137‏ بتجميع فضاء مفاهيمي Conceٍٍ† 53٥€‏ 
لعدد 10 ملايين مستخلص من مقالات الدوريات عبر أكثر من آلف مجال موضوعى 
تغطي مختلف قطاعات الهندسة والعلوم (1997 ,ءاه ط٥؟)»‏ وقد وجد أن هذه الفضائيات 
المفاهيمية أداة خصبة وفعالة لاقتراح التفاعل بين |لnصطlwlٽ Interactive term Suggestion‏ 
والتحول الاصطلاحي. 

ويمكن القول باختصار إن عمليات التمثيل والاسترجاع الآلية مع استخدام الدلالات 
والفضائيات المفاهيمية تعد مستقبل معالجة اللخات في العصر الرقمي. وسوف يصبح 
هذا السيناريو حقيقة مع تحقيق رؤية تيم بيرنر لي ومساعديه للويب الدلالي. 
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آليات الاسترجاع 
وتمتيل الاستفسارات 


4 مقدمة 

يتناول هذا الفصل آليات الببحث واسترجاع المعلومات والاعتبارات التي يجب 
مراعاتها عند إجراء عمليات البحث عن المعلومات» والتى تشمل تمثيل وصياغة 
الاستفسارات» إجراءات الببحث وآلياته المختلفة سواء e‏ طريقة الببحث أو 
حقول الببحث» إضافة إلى آليات البحث المتقدم مثل البحث العشوائي» الببحث 
الموزون» توسيع الاستفسارات» كما سيعرض الفصل أساليب اختيار آلية البحث 
الملائمة إلى جانب معايير تقييم نتائج البحث. 


4 7 اليات البحث 


Search Techniques 


يتم تصميم آليات البحث المختلفة بغرض دعم المستفيد في الوصول إلى 
المعلومات التي يحتاج إليها بفاعلية وكفاءة. ومع التقدم الكبير الذي تشهده تكنولوجيا 
وبحوث ودراسات استرجاع المعلومات تتنوع وتتطور آليات البحث والاسترجاع. 
وعادة مايتم تقسيم آليات البحث والاسترجاع إلى نوعين أساسيين هما: النموذج 
الأساسي والنموذج المتقدم. 


7.1 آليات البحث الأساسية 
Basic Search Techniques‏ 


يشتمل النموذج الأساسي على مجموعة آليات البحث البسيطة التي تشمل 
الببحث البولينى» حساسية الحروف عء۷ا1ئمع؟ عئه٤.‏ البتر» التقارب.» الببحث فى 
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الحقول. وتدعم معظم نظم استرجاع المعلومات تلك الآليات بطرق مختلفة 
ومتنوعة وسيتم إلقاء الضوء على الملامح الوظيفية لكل نمط من تلك الآنماط عند 


7.1.1 البحث البولينى 


۰ 


search Boolean 


ينسب المصطلح بوليني 8٠01٠4١‏ إلى عالم الرياضيات الإنجليزي جورج بولي 
ما00 معاGe0‏ الذي طور طريقة التحليل الرياضى القائمة على المنطق البولينى 
logic‏ eanاBo0.‏ وقد استخدم بولي ثلاثة معاملات اير عه المنطق البوليني ن 
المعاملات التي تستخدمها كل نظم استرجاع المعلومات حتى اليوم وهي ,0۸ AND,‏ 
1 وتشير ۸١‏ إلى العلاقة (و) في اللغة العربية وتستخدم 0۸ للتعبير عن العلاقة 
(أو)» أما N0١‏ فتستخدم للتعبير عن علاقة الاستبعاد (ماعدا أو باستشناء). 

ولتبسيط دلالات تلك المعاملات عادة مايتم استخدام )4۸ND(‏ مع المفاهيم 
المتنوعة ا٤٥١٥‏ ا١عءء؟؟D1‏ لتشكيل علاقة بين مفهومين مختلفين أو أكثر» وتستخدم 
(ماعدا أو باستشناء"N0)‏ لفصل أو استبعاد جزء صغير من المفهوم آثناء عملية الببحث 
»)Sm,1993(‏ بينما تستخدم أو )0R(‏ لتضمين كافة الدلالات ضمن المفهوم الذي 
يتم البحث عنه» بحيث يتم استخدام المترادفات والآشكال المختلفة للمصطلح 
لتغطية كافة الصيغ التي ربمايرد بها المصطلح في الكشاف أو في النصوص عند 
إجراء الببحث. وعند تطبيق تلك المعاملات في آي نظام استرجاع معلومات فإن 
النظام يفترض مايلي: 

معامل الربط (و) ۸١2‏ يستخدم لتضييق نطاق البحث. 
- معامل الحصر (أو) 0۸ يستخدم لتوسيع نطاق البحث. 


- معامل الامستفناء (ماعدا) N0١‏ يطبق بغرض استبعاد التتائج غير المطلوبة 
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ويستخدم المعامل ۸۸2 لدمج مصطلحين أو أكثر في عبارة البحث ويتطلب أن 
تكون كل المصطلحات المستخدمة في عبارة الببحث موجودة في الوثيقة المسترجعة. 
فعلى سبيل المثال عبارة البحث: Ftering and Con†١0۷٥۲8¥‏ تسوية ونزاع 

فى الويقة ثيقة. وذلك بالاعتماد على آلية الببحث وطرق إعداد الكشافات. ولن تسترجع 
هذه العبارة أي نتائج تتناول موضوعات ذات علاقة بتسوية التزاعات مغل المفاوضات 
السلميةء حظر الأسلحة نظراً لأنها لا تتطابق مع مصطلحات عبارة البحث. ويستخدم 
المعامل ۸۸2 في البحث عن المفاهيم ذات العلاقة التي تشكل معا مفهوماً أكثر 
تركيباً أو تعقيداً. 

يستخدم معامل الحصر 0۸ لتوسيع نطاق البحث من خلال تضمين مصطلحات 
لها شكال متنوعة وذات علاقة بالمفهوم الرئيس الذي يتم البحث عنه. وعادة ما 
ا المعامل 0۸ في الببحث عن المترادفات أو المصطلحات المرتبطة ببعضها 
ما . ويتم استرجاع أي وثيقة ثىقة ند a‏ 
البحث. فعلی سبیل المشثال عبارة البحث السابقة بقة تسوية ة النزاعات ذا تم استخدام 
المعامل 0۴ فى البحث عن المصطلحيj Filtering OR Controversy :ıلJı ln‏ 
تسوية أو نزاع» سوف تسترجع تلك العبارة أي وثائق بها مصطلح تسوية وأي وثائق 
بها مصطلح نزاع» كما نها سوف تسترجع الوثائق التي ورد بها المصطلحان معا. من 
ثم فإنه من الواضح أن المعامل 0۸ يسترجع عددا أكبر من النتائج التي يسترجعها 
المعامل ۸2 لنفس العبارة ويساعد على توسيع نطاق البحث. 

معامل الاستبعاد (ماعدا أو باستتتا) ۸01 هو معامل أكثر تعقيدا فى غملية 
البح إذا ما تمت مقار شه بالمعامل 6۸ فح سيل الخال الخت اعفن الخبارة 
llتlئية: NOT ãu,mill) Filtering NOT Controversy‏ النزاع( سوف یسترجع کل 
الوئاقق Ss‏ التي تتناول مفهوم النزاع» 
فعلى سبيل المثال سوف يتم استرجاع تنقية تنقية المياە« تنقية Water Filtering , «lq‏ 
Air Filtering‏ و لکن سیتم استبعاد آي وة ثيقة تشتمل على المصطلح Controversy‏ 
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من ثم فإن المعامل N01‏ يستخدم بخرض تحقيق عملية الاستبعاد للأجزاء 
والمفاهيم غير المرغوبة والتي يسعى المستفيد إلى استبعادها من نتائج البحث. 
ويتضح من ذلك أن المستفيد لابد أن يكون على دراية دقيقة باحتياجاته؛ لأن 
مصطلح تسوية باللغة العربية والإأنجليزية يحمل دلالات متنوعة يحددها المفهوم 
الى ببح غته المد 

یا ا ل ااا اغ ا ا 
Search‏ eاSimp‏ وفي حالة استخدام معاملين أو أكثر في عملية الببحث يطلق عليها 
الببحث الم ركب Compound Search‏ وعادة ما يتم ترتيب أولويات الببحث عند إجراء 
بحث بوليني متعدد المعاملات وفقاً للترتيب التالي: 

١01 أولاًمعامل الاستبعاد‎ ٠ 

ثانیاً معامل الربط ۸۸D‏ 

0۴۸ ثالث معامل الحصر‎ ٠ 

فعلى سبيل المثال عند إجراء البحث المركب عن العبارة التالية 08 ۴1)۲۸ 
Censorship AND Controversy NOT Libraries‏ (المصطلح Ftering‏ يستخدم هنا 
بمعنى استبعاد) بالتالي يتناول الاستفسار السابق موضوع: الاستبعاد أو الرقابة والنزاع 
باستثناء المكتبات» سيتم إجراء عملية الاستبعاد من البحث أولاً أي سيتم استبعاد أي وثيقة 
شع عا ال بات فن كل الر اق الى تل علي المصطلح اعا من تم فان 
النظام سيبحث أولا عن الوثائق التي تشتمل على المصطلح استبعاد ويستبعد منها كل 
الوثائق التي تشتمل على المصطلح مكتبات» ثم تجري علاقة الربط ۸۸۵ لاسترجاع كل 
الوثائق التي تشتمل على المصطلحين Censorship AND C00۷٤‏ الرقابة والنزاع» 
حيث تسترجع كل الوثائق التي ورد بها المصطلحان» وأخيراً يتم الجمع بين المجموعة 
الأولى التي تضمنت الوثائق التي ورد فيها مصطلح استبعاد والتي استبعد منهاء وكل الوثائق 
التي ورد بها مصطلح المكتبات» والمجموعة الثانية التي تم الربط فيها بين المصطلحين 
الرقابة والنزاع باستخدام المعامل (أو 0۴) من ثم يمكن الترتيب كالتالي: 

Filtering NOT Libraries lgÎل| المجموعة‎ 
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Censorship AND Controversy ةıilll المجمو عة‎ 

المجموعة الثالثة نتائج المجموعة الأولى 0۸ المجموعة الثانية 

وإذالم تلب نتائج عملية البحث احتياجات المستفيد يمكنه وضع المصطلحات 
بين أقواس لتغيير الترتيب الطبيعي لعملية البحث أو تحديد الترتيب الذي يرغب أن 
غ ا ا ا فی لوال اسان کو ا ا و و کرای 
اتير القر تا على الحو التالي ملا: 

aجىıaig‎ Fltering OR Censorship AND Controversy NOT Libraries (AND) 
لهذا التغيير في ترتيب أولويات الربط والاستبعاد والحصر ستجري عملية الببحث‎ 
وفشا لر تیب لوانت العوقات ال اف ااقاديك حح تداعا اليجت‎ 
مع العلم أن العلاقات الرياضية‎ .N01 ثم المعامل‎ 7D بالمعامل 0۸ یلیه اا‎ 
(Filtering OR Censorship) JوÎJ| تتطلب فك الأقواس اول حیث یتم فك إلقوس‎ 
للحصول على المجموعة الأولى ثم يتم فك القوس الأكبر. ثم يتم الببحث في‎ 
المجموعة الثانية وأخيرا‎ 4١D ١٥١٤۲0۷ نتائج المجموعة الآولى بالربط مع لكإء‎ 
يتم استبعاد المكتبات من نتائج المجموعة الثالثة. من ثم تكون النتائج المسترجعة‎ 
عن التسوية أو الرقابة المرتبطة بالنزاع باستثناء المكتبات. فكما هو واضح يمكن‎ 
استخدام أكثر من قوس واحد لتحديد ترتيب معين في المعالجة بعبارات الببحث‎ 
المركب. لذلك عادة ما بطق على البح البوليتي السر كب مصطلح البحكف‎ 
.Nested Search Jخlدتnئl‎ 


وتعد آلية البحث البوليني أكثر وأهم آليات البحث التي تستخدمها كافة قواعد 
البيانات الببليوجرافية على وجه الخصوص» سواء كانت فهارس مكتبات متاحة على 
الخط المباشر أو قواعد بيانات ببليوجرافية. ويتطلب إتقان عملية البحث البوليني 
العدريب الكافى غلى تراب المصطلضات وعلافاها ضا بك ا رارف القن 
إلى نظام اة كل قاعدة بيانات أو آداة الببحث التي يتم استخدامها فى استرجاع 
المعلومات. وستتم مناقشة الببحث البوليني ومقارنته بآليات البحث في محركات 
الببحث في الفصل العاشر. 
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7.1.2 البحث الحساس (حساسية الحروف) 


توجد العديد من اللغات التي يؤثر شكل كتابة الحروف في آلية البحث والنتائج 
المسترجعة» حيث تشتمل على الحروف كبيرة C3888‏ ١مم‏ والحروف الصغيرة 
ئ6 .0wer‏ ومن أمثلة تلك اللغات الإنجليزية والفرنسية والإسبانية. تسمح تلك 
الآلية للمستفيد بأن يحدد بدقة شكل كتابة الحروف بالمصطلحات التي يتضمنها 
الاستفسار وكيفية إرسالها لنظام البحث. 


فعلى سبيل المثال المصطلح الإنجليزي 13۲8٥۲‏ باستخدام حرف ۲ الكبير 
والمصطلح 13188 يمشلان نموذجاً بارزاً للكلمات التي تحمل معاني مختلفة مع 
الحروف الكبيرة والصغيرة. فالمصطلح 13۲8٥‏ يشير إلى مؤسسة بيع بالتجزئة وهو 
علامة تجارية شهيرة» بینما مصطلح ۲٩۲8٥‏ يشير إلى الهدف أو المستهدف» بالتالى لا 
بد من أن يكون المستفيد على دراية أو وعي كاملين بالتمثيل الاصطلاحي وشكل كتابة 
اللحرزف الاس ة قى اللات التي طب اكه يك إة ها انى محا 
ا و ا ا ا 
لشكل الكتابة آم يقتصر على الشكل التقليدي. فإذا كان المستفيد بحاجة إلى البحث عن 
مؤسسة البيع بالتجزئة التي تحمل العلامة التجارية 13۲86 فإنه في هذه الحالة لا بد أن 
يكتب المصطلح باستخدام حرف ۳ الكبير. أما إذا كان المستفيد يبحث عن المصطلح 
بمعنى 13۲86 الهدف أو المستهدف فإنه يجب استخدام المصطلح في حالته بالحروف 
الصغيرة. وتجدر الإشارة إلى أن التطبيقات التي تستخدم هذا النموذج محدودة وقليلة 
جداً عند مقارنتها بالنموذج البوليني. وذلك على الرغم من أن البحث بالحروف 
الحساسة يساعد على إنجاز نوع معين من البحث والاسترجاع لا يمكن لأي آلية أخرى 
أن تحققه. مع العلم أن النموذج التقليدي لإجراء هذا النوع من البحث هو وضع بين 
آقواس الاقتباس (» من ثم إذا كان المستفيد بحاجة إلى )13۲86 العلامة التجارية فيمكنه 
وضع المصطلح بين قوسين عند إجراء البحث (أ13186» وسيفهم النظام أن المستفيد 
يبحث عن المصطلح بهذا الشكل» كما هو وسيستبعد كل المصطلحات التي تستخدم 
الشكل الصغير للحرف ا في المصطلح .14۲8٥)‏ 
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وقد اعتمدت الكثير من نظم استرجاع المعلومات على آليات التطبيع في الببحث 
Search Normaliation‏ والذي يودي إلى التوحيد وعدم التمييز بين الحروف الكبيرة 
والصغيرة» تركت مهمة التميز للمستفيد من خلال الاعتماد على سياق بحثي أو عبارة 
بحثية أكثر دلالة عن الموضوع. فيما استخدمت نظم أخرى آليات التقسيم إلى فقات» 
والتي تميز بين المعاني المختلفة للمصطلحات. 


وتجدر الإشارة إلى أن مشكلة الحروف الحساسة تظهر بصورة أكثر وضوحا في 
حالات معالجة المتشابهات فى اللغة العريية» سواء حالات الجناس أو المشترك 
اللفظي» والتي تتطلب أن يكون النظام قادرا على معالجة تشكيل الحروف والتميز 
بن الا شكال ال فة للكلمة من خلال الفشكل :واب رز مال للك ندا جك 
في محرل الببحث جوجل عن كلمة «جبن» يسترجع المحرل النتائج التالية: 
فيديو يكشف خسة وجبن العناصر الإرهابية 


بالطبع يتضح من السياق أن المفهوم الوارد في النتيجة الأولى يختلف عن المفهوم 
الوارد في النتيجة الثانية» على الرغم من الاشتراك اللفظي التام في شكل الكلمة بين 
ويتضح مما سبق أن مشكلة الحروف الحساسة يقع العبء الأكبر فيها على 
المستفيد» وھی مجال خصب لبحوث الذكاء الاصطناعى ومعالجة اللغة الطبيعية. 


Truncation jڌşll‎ 7.1.3 € 


يعرف البتر بآنه القطع أو الاجتزاء ويوجد العديد من المصطلحات المستخدمة 
للإشارة إليه مشل البدل 4إca W1‏ الجذع ten ming‏ التجرید gli Stripping‏ 
المصطلح Term Mask‏ yÎو‏ خوارزمية التضاریس Agr) h e٢‏ ti0۸ھا؟nÊ٥C.‏ وتشیر 
كل تلك المصطلحات إلى استرجاع الأشكال المختلفة للمصطلح» وذلك باستخدام 
جزء شائع أو عام بين كل تلك الأشكال المختلفة. وعادة ماتستخدم نظم استرجاع 
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المعلومات رمزاًمميزاً لعملية البتر مثل علامة الاستفهام ؟ أو النجمة # لتوجيه النظام 
إلى ضرورة استرجاع كافة الآشكال المختلفة للمصطلح. فعلى سبيل المثال عند 
البحث بالمصطلح Kإهساءم٭‏ فإن ذلك يعد توجيها للنظام باسترجاع كل الكلمات 
الأخر ی للمصطلح networking , networks, networkable Jia‏ ... الخ. يوجد ثلاثة 
أنماط أساسية للبتر هي: 


النوع الأول بتر اللواحق ×تاد؟ والذي عادة ما يطلق عليه البتر الأيمن ٤1عنR‏ 
Truncation‏ والذي يعد الممارسة‌الأكثر شيوغا فی عمليات البتر» مع مراعاة 
شكال الكتابة المختلفة بين العربية والإنجليزية. 


النوع الثاني يُطلق على بتر السوابق ×؟ه٣۴‏ والذي يقوم ببتر الأجزاء الأولى 
من المصطلحات ومثال على ذلك *#عاu2لةإع‏ من الممكن أن تشير إلى 
المصطلح Postgraduate, Undergraduate.Semigraduate‏ ويطلق على هذا 
النوع البتر الأيسر 1۲٣٥4٤101‏ )م1 وهو نادر الاستخدام ولا توجد أنظمة 
تقريبا تدعمه في العصر الحالي وعادة مايترك لفهم المستفيد. 


النوع الثالث هو البتر الاأوسط ٥٢‏ ٤س٣‏ ×اگ«1 ويشير إلى بتر أجزاء من 
وط الةو انا بطق عله ال الداغلى. وجار الا قار ال ان الک 
الأوسط أحياناً يستخدم علامة الاستفهام )© في الإشارة إلى عدم تأكد 
المستفيد من الحرف المحذوف أو رغبة المستفيد في استرجاع الأشكال 
المختلفة لهجاء الكلمات. فعلى سبيل المثال عنداستخدام المصطلح clo?r‏ 
عند إجراء الببحث فإن النظام سوف يستر جع المصطلحات إل0ا ,إoإCo»‏ 
كما أن الببحث باستخدام Organi?ation‏ سوف تسترجع Organization AND‏ 
.ganisation‏ وعادة ما یطلق علی عملية البتر الأوسط مصطلح البحث 
بالحروف البديلة 2۲ء ل1¡ . 


ويمكن القول إن البتر يساعد المستفيد على استرجاع الأشكال المختلفة للمصطلح 
باستخدام الشكل الشائع وتحديد مواضع الاختلافات. ويجب على المستفيد أن 


يحدد الجزء الشائع في المصطلح وأماكن الأجزاء التي يوجد بها اختلافات. وعلى 
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الجانب الآخر يجب عدم الإسراف في عمليات البتر لأجزاء كبيرة من المصطلح؛ 
حيث إن بتر مصطلح مثل ع٥1هاهء‏ إلى *4ء يؤدي إلى استرجاع كم كبير من الوثائق 
غير الدقيقة عن القطط مثلاًء وعلى الجانب الآخر فإن بتر عدد أقل من اللازم من 
الحروف قد يُفقد المستفيد فرصة استرجاع وثائق مهمة. فعلى سبيل المشال استخدام 
الشكل 1ء كنموذج لبتر المصطلحات الدالة على مفهوم الفهارس سوف يضيع 
على المستفيد فرصة استرجاع وثائق تستخدم المصطلح الأمريكي ع٥اهاهء‏ في مقابل 
استرجاع وثائق تستخدم الشكل البريطانى ع uعهاهاهء»‏ ولتحقيق بعض التحكم في 
عملية البتر تسمح بعض النظم بتحديد عدد الحروف التي يتم بترها. 


7.1.4 البحث بالتقارب 


Proximity Search 


يعمل المعامل البولينى ۸١2‏ على تحديد المصطلحات التى يجب أن تتضمنها 
الت المج 9 د ل مدد السا ين فك اعات رت فا هان 
بعضها يغبا فعلى سبيل المثال عبارة البح البو أıiaة E AND Controversy‏ 
ا ا اوا بجا مدعا ا 
معاعدة مات الكلمات عن بعضها بعضا a‏ 
المصطلحات في عنوان الوثيقة والآخر في نهاية الوثيقة. وقد يؤدي ذلك إلى أنه لا 
جد عا ا ن فاك اه ات الم ج ما ویز اجا 
وثائق لاأ تتناول الموضوع الذي يبحث عنه المستفيد» ولحل تلك المشكلة تم ابتكار 
سلوب بحث يعتمد على تحديد مدى التقارب بين المصطلحات ومدى الارتباط 
بينها في إطار سياق معين عادة ما يطلق عليه البحث بالتقارب أو البحث بالتجاور 
Adjieoiey Sear‏ 


ويسمح البحث بالتقارب للمستفيد أن يحدد بدقة مدى التقارب أو المسافة بين 


المصطلحات البحثية وعلاقاتها الموضوعية Relative Position‏ باستخدام المعامل 
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ويشير المعامل ١اس‏ إلى أن المصطلحين المستخدمين في البحث لا بد أن يظهرا بجوار 
بعضهماء كما وردا وبنفس الترتيب المستخدم في العبارة البحثية؛ فعلى سبيل المثال» 
العبارة البحثية رإع0[0”صطcء1 formation with‏ تشير إلى أن الوثائق المسترجعة لهذه 
العبارة لابدأن تتضمن العبارة yإچoاnoط1ec nformati0n‏ كما هى ولیس ا شىء 
آخر اها مثل Teli 0 Information ڇًÎ Information and Technology‏ 
إضافة إلى ذلك» فإنه يمكن تحديد عدد الكلمات التي تفصل بين المصطلحات عند 
استخدام المعامل 1٤ز«‏ حيث يتم إضافة عداد (۸) لتحديد عدد الكلمات التي تفصل 
بين المصطلحين المستخدمين في اليحث N with‏ ويتم استبدال × بعدد الكلمات 
(,1,2...) الفاصلة بين المصطلحين وتحديد ترتيب تلك المصطلحات. 

فعلى سبيل المثال العبارة البحثية information 2 with technology‏ تستر جع 
وثائق عن 

Information technology 

Information and technology 

Information and network technology 

Information retrieval technology 

من ثم فإن هذه العبارة البحثية سوف تسترجع الوثائق التي ترد فيها المصطلحات 
المحددة بالعبارة البحثية على مسافة لاأ تتجاوز مصطلحين فقط. 

كما يستخدم المعامل بالقرب 164١‏ بنفس الطريقة التي تشير إلى أن المصطلحين الذين 
تم ربطهما ببعضهما بعضاً لاإبد أن يكونا متجاورين 0۲۲زلة» ولكن على عكس المعامل 
ط٤«‏ فإن المصطلحين المستخدمين مع المعامل 1٥۹١‏ من الممكن أن يظهرا في أي ترتيب ما 
داما متجاورین في النص. على سبيل المثال العبارة البحiيıة information near technology‏ 
تسترجع وثائق عن „technology information yÎ information technology‏ 

کمایستخدم المعامل بالقرب N 1٥2۲‏ لتحديد عدد الكلمات التي تفصل بين 
المصطلحين المستخدمين في العبارة البحثية؛ حيث يتم تحديد عدد الكلمات 
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(123..) برف القظ ر عن تزتها فى الوثائق والعبارة البحة خث يكن أن 
يأتیا فی آي ترتیب ظهرا فيه فى الرئة مدد الببحث بالعبارة البحثية infor mati0n‏ 
enol‏ 1 2 یمکن للنظام أن يسترجع أا من الوثائق التي تشتمل على 
المصطلحات التالية: 

information and technology 

information and networked technology 

technology and information 


technology and business information 


ويعد البحث بانفجملJ searching pharse‏ النموذج الأكثر ااا ج نظم 
استرجاع المعلومات الحالية للدلالة على البحث التجاوري» وعادة مايستخدم مع 
النظم التي تتعامل مع الكلمات وتكشيف الكلمات ×ع ل1 sل١۲هس.‏ وبتحديد أكثر 
دقة فإن المعامل ٣اس‏ يمكن أن يقوم بإجراء بحث بالجمل المتطابقة كاجام exact‏ 
search‏ من حيث المصطلحات والترتيب عند البحث باستخدام المعامل .1٥2۲‏ كما 
يقوم بإجراء البحث عن الجملة البحثية بصرف النظر عن مواقع الكلمات أو ترتيبهاء 
ولكنه يلتزم بمدى تقاربها كما وردت في العبارة البحثية. وتقوم بعض الأنظمة بتوسيع 
نطاق التجاور في عمليات البحث ليشمل التجاور في الحقول البحثية والتجاور في 
اراتا ن اوو ات ٠ ٠‏ 

فعلى سبيل المثال نظام ديالوج ع٥141(‏ لاسترجاع المعلومات عن الخط المباشر 
يسمح للمستفيد بتحديد الببحث التجاوري سواء باستخدام 18۲ 0۲ ازس في حقول 
بحثية محددة. وتجدر الإشارة إلى أن معظم نظم استرجاع المعلومات الحالية تعتمد 
بصورة أكبر على البحث بالجمل من خلال استخدام التعبير عن الجمل البحثية بين 
الآقواس المزدوجة () وهو نمط مستخدم في قواعد البيانات ومحركات البحث 
المتاحة على الويب على السواء. وقد تخلت معظم تلك النظم عن تعقيدات البحث 
التجاوري باستخدام معاملات a۲عہ‏ dصھ‏ طtس‏ واستبدالها بالاقواسش المزدوجة في 
الدلالة على الجمل الئبحثية .(pharse searching)‏ 
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7.1.5 البحث فى الحقول 
Field Searching‏ 


تعد التسجيلات الببليوجرافية التي يتم إعدادها لتمثيل أوعية المعلومات من 
آهم أساليب التعبير عن شكل ومحتوى الوثائق. وتتكون أي تسجيلة ببليوجرافية من 
مجموعة من الحقول التى تمثل المؤشرات الأساسية لأوعية المعلومات. وتشمل 
الحقول الببليوجرافية بيانات عن المؤلفين والعناوين وبيانات النشر والموضوعات.. 
الخ. وعادة ماينظر إلى الحقول على أآنها الوسيلة الأساسية للدلالة على معلومات 
e‏ إلخ 
ني آي ظا استرجا مامات الي ال عندم اتم توشر اتد 
عن الوثيقة ثيقة. ويساعد الببحث فى الحقول على تحديد عملية البحث فى حقل معين أو 

الوظيفة الأولى: تحديد الحقل الذي يرغب المستفيد أن تكون المعلومات التى 
ببح اعا قد وزردذت فيه فغلى سيل الشاك ]ذا كان المسيد حك عن اعمال 
شخص معين مثل طا اءام۴ كمه المرتبطة بمجال استرجاع المعلومات 
information Retrieval‏ من الممكن البحث باستخدام المصطلح استرجاع 
المعلومات في الموضوعء إلا أن ذلك سوف يسترجع عدداً كبيرأمن الوثائق 
Hans Peter Luhn’s‏ وغيرo‏ 2 نفس e‏ أما 
البحثيين باستخدام المعامل البوليني .A١2‏ 

الوظيفة الثانية: استخدام البحث الحقلي يساعد على تضيبق نطاق الببحث بفاعلية» 
شرف ان باحثاقام بإجراء ببحث عن موضوع علم المعلومات Information Science‏ 
فإن هذاالنوع من العمليات البحثية سوف يسترجع عدة آلاف من الوثائق قق التي تتناول 
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الموضوع» وعدد قليل جدأ من الباحثين سيكون لديهم القدرة والوقت على مراجعة 
كل تلك الوثائق» من ثم فإنه يمكن تضيبتق نطاق البحث بفاعلية في الموضوع نفسه 
في حقول مثل سنوات النشر اللغةء نوع الوثيقة. 

ويحك الببحث الموضوعي باستخدام الموضوعات اءعزطنء أو المفاهيم concept‏ و 
المجالات ءءامه] والذي يطلق عليه الببحث عن مضمون المعلومات 0 ككعم†uامطa‏ 
information‏ متبو عا بالببحث عن موضع المعلو مات fines of infor ^21 0٩‏ الذي 
يتم تحديده من خلال الحقول البحثية هو الطريقة المثلى لإجراء البحث عن نتائج 
محددة. وتجدر الإشارة إلى أن معظم محركات البحث المتاحة على الإنترنت لا 
تتيح إمكانية البحث باستخدام الحقول» نظرا لأن المعلومات لا يتم تمثيلها باستخدام 
بدائل حقلية للتعبير عن محتوى الوثيقة» كما هو الحال في نظم استرجاع المعلومات 
التقليديةء لذلك فإن البحث الحقلي غير قابل للتطبيق في محركات بحث الإنترنت. 


7.2 اليات البحث المتقدم 


Advanced Retrieval Techniques 


يتم تطبيق كل آليات البحث البسيطء في معظم إن لم يكن كل» نظم استرجاع 
المعلومات» وفي المقابل يتم تطبيق آليات البحث المتقدم في عدد محدود واختياري 
من أدوات الببحث والاسترجاع أو تستخدم في الاختبارات المعملية للمقارنة بين كفاءة 
النظم. وتوجد نماذج متنوعة للبحث المتقدم سيتم تناولها بالتفصيل في الجز التالي: 


7.2.1 البحث الغخامض 


Fuzzy Searching 


بلق عليه جانا اليح الجر د وهو مط من آنحاط الست يبه البح بالشر 
ga truncation‏ بعض الاختلافات الأساسية» فبينما يسمح البحث بالبتر باسترجاع 
الآشكال المختلفة للمصطلح من خلال تحديد الجزء المتشابه في عملية الببحث 
ويضع علامة البتر عند الجزء المختلف أو المشكوك في صحته؛ فإن الببحث 
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الغامض يستخدم في الوصول إلى المصطلحات التي يوجد بها أخطاء هجائية سواء 
عند كتابة الاستفسار أو إدخال البيانات في النظام» فعلى سبيل المثال المصطلح 
computer‏ من الممکن أن تحدث أخطاء هجائية عدة عند كتابته فيكتب ۲عا ۷٣01ء‏ 
or compture compiter or cometer‏ فيحتاج النظام إلى آلية لتصحيح تلك الأخطاء 
عند الببحث عن تلك المعلومات» كما تظهر تلك المشكلة عند إجراء رقمنة لوثائق 
اوغا وتر اها إلى ترص اما تق ارف الو ي إلى الور 
Optica1 Character Recognition (OCR)‏ إلى جانب النصوص المضغوطة 
compressed text‏ التی تظهر بعض الأخطاء عند فك ضغطها ۲essمp‏ ص c٥‏ ملا فی 
م رارت ري ا ااا ق رن ی ا 
الهجاء التي تنتج عن أخطاء إدخال البيانات في التمثيل أو صياغة الاستفسارات 
أو الاختلافات في نظم التعرف الضوئي على الحروف أو النصوص المضغوطة 
Gr0ssman & Frieder,(1998)‏ ویعد نموذج تكرار المصطلحات ۲۵۳ع-1 أحد 
أهم الآليات المتخصصة في تطبيق البحث الغامض. وهو عبارة عن وضع نماذج 
لتفكيك الكلمات بطول محدد يطلق عليه ۲۵۳0ع 1 متبوعا بسلسلة من الحروف (1 
...4 ,3 ,2) في الكلمة أو أن يتم فك أو تحليل المصطلح إلى أجزاء حسب عدد 1 
من الأجزاء. فإذا أخذنا الہمصطلح 2٣نطSearc ۴uzzy‏ کنموذج من النمكن أن تكون 
لدينا أساليب تحليل الثنائية والثلاثية التالية (1997),¡)ئاهسK0:‏ 

Bi-grams (n=2): fu UZ ZZ Zy 

Se ea er re ch hi in ng 

Tri-(n=3): fuz UZZ ZZy 

Sea aer are rch chi hin ing 

توجد أسالیب تحليل الأجزاء (كوصهإع-ه) الرباعية ١۳8١ع‏ 4۲۲ا والخماسية 
ع penta‏ وطرق اأُخری تستخدم في الإإجراءات التحليلية للاستفسارات وجودة 
إدخال البيانات والتحليل الصرفي لنظم التعرف الضوئي على الحروف والنصوص 
المضغوطة. هذا النمط التحليلي ك۳هءع-١‏ ليس من الضروري أن تكون له آي علاقة 
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بالمعنى الدلالي للمصطلح» على الرغم من ذلك فهو يستخدم بكثافة في نظم التدقيق 
الإملائي والتحقق من الأخطاء. 

وتستخدم خوارزميات المضاهاة لتحديد ما إذا كان هناك تطابق بين طريقة التمثيل 
والاستفسار الذي يدخله المستفيد إلى النظام فإذا كانت كل الأجزاء 4۳8إع-" 
الخاصة بمصطلحات التمثيل مطابقة تماماً لمصطلحات الاستفسار لايقوم النظام بأي 
عملية تصحیح» اما في حالة عدم تطابق جزء أو جزئین 8۲4۳ W0‏ 0۲ - 0 يقو م 
النظام باظهار طا ف |لڼدخJl .(Grossman & Frieder,1998)‏ 


وقد أصبح تطبيق البحث الغامض في معالجة الأخطاء أو اقتراح التصويبات 
الممكنة فى الكثير من أنظمة الببحث» ومن الأمثلة الشائعة أيضا لتطبيق آليات البحث 
ااعا ر اهي اا ارا ا ا ا ار 
الذي يرد إلى نظام استرجاع المعلومات بأحد القواميس. وفي حالة تحديد أي 
خطا بعملية الإدخال يتم تصحيح الخطاً من خلال المطابقة بالمصطلح القاموسي 
وتصحيحه. ويمكن القول في المجمل إن البحث الغامض يساعد الأنظمة على التغلب 
على مشكلات أخطاء إدخال البيانات سواء فى عملية التمثيل أو الاستفسارات. من 
ثم فالوثائق الى تصدن ال اع الهجائية أو عدم دقة نظم التعرف 
الضوئي على الحروف آو أخطاء فك الضغط وغيرها من الحالات المشابهة لم يكن 
من الممكن استرجاعها دون وجود آلية البحث المجرد. 


7.2.2 البحث بوزن المصطلحات 
:Term weighted searching‏ 
يعرف وزن المصطلحات بأنه عملية إعطاء قيمة أو وزن نسبي للمصطلح المستخدم 
في تمثيل الوثيقة و/ أو استفسار المستفيد. ففي بعض الأحيان يحتاج المستفيد إلى 
تسليط ضوء أكبر على بعض أجزاء الجمل البحثية أكثر من غيرها. فعلى سبيل المشال 
في العبارة الıبحثيıة Filtering AND Controversy‏ النراع والتسوية» قد يكون المستفيد 
أكشر اهتماماً بجانب النزاع منه بجانب التسويةء بالتالي فهو بحاجة إلى إعطاء وزن نسبي 
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للمصطلح نزاع أكبر من الوزن النسبي للمصطلح تسوية» ولهذا الغرض يتم تصميم نظم 
البحث بالوزن السبى لاستفسارات المستفيدين» وذلك بغرض تحديد الا جراء الاكقر 
أهمية التي تحتاج إلى تسليط الضوء عليها بصورة أكبر من الأجزاء الأقل أهمية. 

ويتم تحديد الأوزان بصور مختلفة» منها وضع رمز مثل النجمة # بجوار المصطلح 
كماهوالحال في قاعدة بيانات 8۸1٥‏ للدلالة على آنه مصطلح أساسي أو باستخدام 
دلالات رقمية 0۴۲۵18 سواء كانت عشرية أو صحيحة. كما تستخدم بعض النظم نظام 
درجات من 5-1 لإعطاء نقاط تدل على الأهمية حيث تشير (5) إلى أعلى درجة و(1) 
إلى قل درجة. وبالطبع فإن عملية إجراء البحث بالوزن النسبي تتطلب أن تكون عملية 
التمثيل نفسها قد وضعت أوزانا للمصطلحات في مرحلة التمثيل. فعلى سبيل المثال 
عند إجراء البحث باستخدام العبارة البحثية ) 6( Filtering (3) AND Controversy‏ النراع 
(6) و التسوية (3) فإن المستفيد يتوقع ن النظام سوف يسترجع وثائق تشتمل على هذين 
المصطلحين بنفس الوزن النسبي» بحيث يكون وزن الوثائق المسترجعة للمصطلح نزاع 
تعادل 6 في حين يكون وزن المصطلح تسوية في الوثائق المتسرجعة يعادل 3. 

ومن الممكن استخدام درجة قطع او حد معین 11۲٠101۵‏ لتخصيص الوزن 
الذي يلبى احتباجات المسستفيد. نفشرض أنه تم تعيين الحد لتنئ Controversy)‏ 
ND #|tering 3‏ (6) النزاع (6) والتسوية (3). فإن الحدهناهو 9درجات» من ثم 
فإن أي نتائج بحد قل من (9) حتى لو كانت الوثيقة تتناول نفس الموضوعين بأوزان 
3 للتسوية و6 للنزاع» فإنها سوف تعد وثيقة غير صالحة للاستفسار ولا تلبي الأوزان 
التي تم تحديدهافي الاستفسار. 

من الواضح أن عملية تحديد قيم أو درجات نسبية للمصطلحات هي المعيار 
الأساسي لآليات البحث بالوزن. توجد العديد من خوارزميات الوزن :)ع۷6 
ort hs‏ المستخدمة فى تحديد أوزان المصطلحات منها: 

Term Location موضع المصطلح‎ 

Term Proximity تقارب المصطلح‎ 
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TF) Term Frequency) تردد المصطلح‎ 
ITF) Inverse Documents Frequency) عکس تردد المصطلح‎ 
Individual Judgements الأحكام الفر دة‎ 


وعلى الرغم من وجود كل تلك الخوارزميات التي يمكن أن تستخدم في وزن 
المصطلحات,» إلا أن الأحكام الفردية للمستفيدين أو الطريقة الحتمية Determme1iS)iC‏ 
Meth 4‏ أو التحديدية يمكن تطبيقها بصورة عملية من جانب المستفيد» حيث يمكن 
للمستفيد في الوقت نفسه تحديد الأوزان الخاصة بالمصطلحات في العبارة البحثية» 
دون أن يكون على دراية بأوزانها في الوثائق. وفي المقابل فإن كل الأساليب الأخرى 
لتخصيص الأوزان تعتمد على وزن المصطلحات المشتقة من الوثائق التي يتم 
تكشيفهاء لذلك فإن آليات الوزن التي تعتمد على موضع وتقارب وتردد المصطلح 
يمكن تطبيقها فقط مع نظم التكشيف بالوزن النسبي 1£ Weighted [dex‏ . 

تعتمد نظم الوزن بالآحكام الفردية على أحكام ذاتية غير موضوعية من جانب 
المستفيد إلا أن تطبيقها يعتمد على مزيج من العوامل التي تشمل الحاجة إلى 
المعلومات» وطبيعة نظم استرجاع المعلومات» وشكل النتائج المتوقعة من حيث 
الوزن. بعبارة أآخرى» فإن المستفيد عندما يحدد وزن المصطلحات في الاستفسار 
يجب أن يراعي هذه العوامل عند إجراء البحث» لذلك فإن تخصيص الوزن في وقت 
بتاء الا تسار لا يعد بهذ الطريقة إجر ا اأعشاطبا هاا تة بضررة كام 


وكماسبقت الإشارة» توجد العديد من معايير تخصيص الأوزان التي تستخدم مع نظم 
التكشيف بالوزن النسبي للمصطلحات آكثر من نظم البحث بالوزن النسبي. ومن ضمن 
الوثيقةء ووفقاً لتلك الطريقة فإن المصطلحات التي تظهر في مواضع معينة من الوثيقة 
يتم تحديدها مقدماً وتخصيص أوزانها وتكون أكثر أهمية من المصطلحات التي تظهر 
في أجزاء أآخرى من الوثيقة ومن آبرز المواضع التي تركز عليها هذه النوعية من أنماط 
التكشيف (العناوين) رؤوس الأجزاء والعناوين الجانبية.. إلخ. 
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وتشير خوارزمية تقارب المصطلحات إلى المسافة بين المصطلحات الكشفية 
في الوثيقة. وبصفة عامة كلما قلت المسافة بين المصطلحين وتقاربا في الوثيقة» 
ارتفع الوزن النسبي لتكشيف تلك المصطلحات. ي ار أن الرس الات 
المتقاربة تحصل على وزن نسبي أكبر من المصطلحات المتباعدة في الوثيقة» 
فل م اال تل ملم اما ارات ی ن ي ار 
في الوثيقة عندما يراد استرجاع المعلومات أكثر من مصطلحات آخرى مثل 
استرجاع المعلومات والبحث عنها. ويحصل مصطلح نظم استرجاع المعلومات 
على وزن نسبي أعلى من نظم خزن واسترجاع المعلومات أو في التمثيل والبحث 
والاسترجاع المعلوماتي وهكذا. 


ر ر ر ا ر اوا لار عن عة اع ررد ا ن 
في الرئهة: نكا أ وا سن قل آن الكلمات الى ترددت كيرا فى الرلةة لیس 
رطا ا رن مم طاحات فة ةر اها قد رة ات 
Function Words‏ او کلمات تعبیرية E×xpress10 W01١‏ ولیس لهااي دلالة اصطلاحية 
واسترجاعية بالوثيقة. وفي المقابل فإن المصطلحات التي يكثر ترددها في الوثيقة» 
والتي تعبر عن مصطلحات كشفية مهمة بالوثيقة لابد أن يتم إعطاؤها وزناً نسبياً 
مرتفعاً في الدلالة على مضمون الوثيقة. 

جد ر الاشارة إلى أن تلك الم طاحات ردد بكترا ف وات عة و تادر اما دوف 
ية الفاق رفاغ اليانات ساعد على المي من الكلمات الرطغة و اشخب رة رابات 
الوقف كلإ۷0 م0p)$‏ والمصطلحات الكشفية كثيرة التردد فى الوثائق الفردية المهمة التى 
فصل على آرز ان ہے مر قعائی کا ریف ر اك ااراتن )1989 (Salton,‏ ۰ 


وعند حساب تردد المصطلح ف في الوثيقة تتم مراعاة عدد الوثائق التي يرد بها 
المصطلح في تخصيص وزن المصطلح» ويعرف هذا المقياس ب(مقابل وعكس تردد 
المصطلح ) .)1nverse Document Frequency - idf‏ ففي منتصف الستينات من القرن 
الماضي» توصل العالم الأمريكي كليفردون ١0لإ۷6ء1٣ C.۷.‏ إلى وسيلة لتحديد الوزن 
اللسبي للمصطلح في الوثيقة بهدف تكشيف الوثائتق بصورة أفضل. وكنتيجة لأعمال 
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كليفردون حاول من بعده العديد من الإحصائيين والرياضيين التوصل إلى خوارزمية 
لتحديد قيمة المصطلح ضمن مجموعة من الوثائق. وقد سعت التحليلات في البداية إلى 
التركيز على مفاهيم واختيارات لمجموعة من المصطلحات» وقد تطور الأمر بعد ذلك 
لاستخدام كل المصطلحات الواردة في الوثيقة لتحديد الوزن النسبي للمصطلح ضمن 
الوثيقة» ومن هنا جاء الآهتمام بخوارزمية (مقابل تردد الوثائق). ويتم قياس مقابل تردد 
الوثائق بحسابات لوغارتيمية ۳i ٥210113101‏ ط)1ةع0[ وهو عبارة عن معدل النصورص 
والوثائق التي توجد ضمن المجموعة الكاملة للوثائق وعدد الوثائق التي تحتوي على 
المصطلح المحدد. من ثم فهي عبارة عن معدل لوغارتيمي لعدد الوثائق التي تشتمل 
على مصطلح ماإلى إجمالي عدد الوثائق بالنظام (5,2000ع٣0زck٤٣٣مء).‏ 

ويعني ذلك آنه كلما انخفض عدد الوثائق التي ورد بها المصطلح» ارتفع وزنه 
النسبي في التمثيل لهذه الوثيقة» وكلما ارتفع عدد الوثائق التي ورد بها المصطلح 
انخفض وزنه النسبي في تمثيل الوثيقة. 

وعادة ماتستخدم خوارزمية تردد المصطلحات 1۴ مع خوارزمية مقابل تردد 
المصطلحات الا ويطلق على هذه الخوارزمية تردد المصطلحات فى مقابل تردد 
الوثائق ل1 . وفي أحيان أخرى يتم مراعاة طول الوثيقة (طاع١ء1 DL (bbumeht‏ 
عند تطبيتق خوارزمية تردد المصطلحات في مقابل تردد الوثائق» كمؤشر إضافي 
فوروال اعات ق اة ليقة. فعند تثبيت معدل تردد المصطلح وعدد الوثائق 
التي ورد بها المصطلح» »فانه كلما كانت الونقة اتر طولا من الوثاتق ق الآخرى» كان 
المصطلح الذي ورد بها أقل أهمية من الوثائق ق الأقل طولا. فمثلاً إذا ورد مصطلح 5 
مرات في وثيقة طولها 1000 كلمة فهو أقل أهمية في هذه الوثيقة من مصلطح ورد 5 
مرات في وثيقة طولها 100 كلمة. 

یر ی د ا انی رو اکا ی ا د ا 
.£ في العديد من تجارب مؤتمر استرجاع lلiصڊر‏ ص Text Retrienal confereıce-)‏ 
RE٣‏ ۲) للمقارنة بين العديد من الاأنظمة (5,2000ع٣0زk٤٣١مs).‏ 


كماتوجد العديد من آليات وزن المصطلحات الأخرى التي تم تطبيقها من جانب 
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مطوري النظم مثل الساليب الاحتمالية 1٥۲۵۵مم۸‏ راناiطهطهء۴‏ وأساليب الاستدلال 
Inferences Approach‏ (والتي سیتم مناقشتهما احا إلاآنها تستخدم من خلال 
المزج بينهاوبين طرق أخرى مثل موضع المصطلح» والتي يتم تطبيقها مع خوارزمية 
تقارب المصطلحات في خوارزميات وزن المصطلحات. وتجدر الإشارة إلى أن 
محركات بحث الإنترنت تستخدم آليات وزن المصطلحات من خلال وضع رموز 
وعلامات بجوار المصطلحات البحثية مثل (- ,+ ,*. () الخ). 


> 7.3 توسيع الاستفسارات 


Query Expansion 


توسيع الاستفسارات إحدى آليات الاسترجاع التي تتيح للمستفيد تحسين النتائج 
المسترجعة من خلال مراجعة الاستفسارات بناء على النتائج المسترجعة التي تعطى 
المستفيد انطباعاً عن مدى دقة صياغة العبارة البحثية. وتعد عملية توسيع الاستفسارات 
عملية تكرارية وتفاعلية حيث يقوم فيها المستفيد بتعديل العبارة البحثية من خلال 
مراجعته للنتائج المسترجعة في أكثر من دورة بحثية لنفس الاستفسار. 


المعلومات الدالة الى يمكن من خلالها إعاذة صياغة الاستفسارء وفادة ما تتكرر 
تلك العملية من الناحية النظرية حتى يحصل المستفيد على نتائج مرضية» وينصح 
المستفيد فى المراحل الأولى من البحث بقراءة كل العناوين والمستخلصات المرتبطة 
ببحثه حتى يستوعب كل المصطلحات الدالة على الموضوع وعلاقتها ببعضها بعضا؛ 
حيث إن التفاعل المستمر بين المستفيد ونظام استرجاع المعلومات يساعد على 
تحسين النتائج من خلال تحسين مستوى إدراك المستفيد لمحتوى النظام. 

وقد أشار كل من ريسنك وفاوخان (2006, 12ع ۷u‏ & )‌iم‌وهR)‏ إلى وجود 
طريقتين للتعامل مع الاستفسارات في هذا السياق» الأولى هي توسيع الاستفسارات» 
أما الثانية فهى تضيية lالاwتفiuر .Query Expanding and Narrowing‏ 


إذا كانت عملية توسيع الاستفسارات تتضمن إضافة المترادفات والمصطلحات 
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المرتبطة بعبارة الببحث بغخرض زيادة عدد النتائج الصالحة المسترجعة؛ فإن تضييق 
نطاق البحث يهدف إلى استخدام مصطلحات أكثر تحديداً أو استبعاد المصطلحات 
التي تحمل معاني متشابهة غير ذات علاقة بموضوع البحث. من ثم فإن التوسيع 
الخرض منه إضافة نتائج صالحة إلى قائمة النتائج المسترجعة» بينما التضييق الخرض 
منه استبعاد النتائج غير الصالحة من قائمة النتائج المسترجعة. 

التوسيع عادة مايضيف أو يوسع نطاق العلاقات الاصطلاحية المرتبطة» سواء 
فى نفس المستوى الشجري لمصطلحات العبارة البحثية أو فى المستويات الأعلى. 
أا الف اف عا ها م لهات ر مدد اللات ضر كرو 
ويعمل على إزالة الغموض رالاعا" هء1 الاصطلاحي بغرض التأكد من استرجاع 
التتائج الصالحة فقط واستبعاد النتائج غير الصالحة. 

ويتم تقسيم عملية توسيع الاستفسارات إلى ثلاث فئات بناء على مصدر اختيار المصطلحات 
المرتبطة بعملية توسیع الاستفسار (Gauch, Wang & Erachakonda,1999)‏ وa:‏ 


٠‏ التخصيص الاصطلاحي لإاهءا؟زءمم؟ 1٥۲۳‏ وهو عبارة عن إجراء عملية 
ر ا وای روا و غا من ق ال ج اا 
استفسار أولي ثم مراجعة المصطلحات الواردة في الوثائق المسترجعة» بناء 
على تلك المجموعة الفرعية» ويطلق على ثلك الحماية التوسيع خضي ص 
الاستفسار .Query Specific Expansion‏ وإذا تمت عملية التوسيع بناء على 
مجموعة المصطلحات التي يتم تحديدها أو الحصول عليها من خلال تحليل 
محتوى قاعدة بيانات نصوص كاملة معينة» من ثم فإنها عملية تخصيص بناء 
على ذخيرة نصية .Text Corpus Specific‏ 


٠‏ التخصيص اللغري لإ1tء|؟iءممS [an guage‏ من خلال البحث في الأدوات 
المضبوطة مثل المكانز وقوائم روس الموضوعات العامة وغير المرتبطة 
بمجموعة محددة من الوثائق. ويمكن أن تتم عملية توسيع الاستفسارات 
بطريقة يدوية أو آلية. ويقوم المستفيد في الطريقة اليدوية بتحديد المصطلحات 
الجديدة وإجراء عملية تعديل الاستفسار بنفسه. ما التوسيع الآلي» والذي 
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يطلق عليه اشا رد فعل الصلاحية 2ckطdءءF Relevance‏ والذي یعتمد على 
افقتراض أن مجموعة النتائج التي ترد على قمة الترتيب لء)«ه۸ ص10 في نتائج 
الببحث هي المجموعة الأكثر صلاحية» من ثم استخدامها في عملية مراجعة 
وتوسيع الاستفسار ولا يتدخل المستفيد سواء بطريقة مباشرة أو غير مباشرة 
في عملية تعديل اللاستفسار (Grossman & Frieder ,1998, Salton,1990)‏ . 


وتجدر الإشارة إلى أن مصطلح توسيع الاستفسار ليس المصطلح الملائم لوصف 
تلك العملية» والمصطلح الأكثر دلالة هو تعديل الأwتفinر .Query Modifications‏ 
ومن الآليات الإضافية لتعديل الاستفسارات استخدام قوائم المقترحات» والتي يتم 
إدراجها في صورة قائمة منسدلة آثناء إجراء البحث» تقترح مجموعة من المصطلحات 


وقديرى البعض أن هذه الآلية قد تؤدي إلى تشتيت المستفيد «User Dis) ı410‏ 
إلا أن البعض الآخر يرى آنها تدعم عملية التوسيع في الوقت الحقيقي 1:٣٤‏ 41ء۸ 
8×8 بمعنى أن عملية التعديل تتم بصورة تفاعلية مع استفسارات المستفيدين 
.(White & Marchionini, 2006)‏ 


٥‏ رتبب النتائج Ranking‏ tsاResu‏ تعد عملية ترتیب النتائج وسيلة أساسية 
لتعديل الاستفسار من خلال استخدام سلوب الصلاحية الراجعة في عملية 
التوسيع الآلي للاستفسار» كما هو الحال في آليات الوزن :)ع۷ 
Techniques‏ التي تعتمد على خوارزميات الوزن والترتيب مثل موضع 
المصطلح» تقارب المصطلحات. تردد المصطلحات.. الخ. 


وتعتمد كل نظم استرجاع المعلومات على خوارزمية خاصة بالترتيب» عادةماتكون 
غير منشورة أو متاحة للجمهور العام. ولعل أبرز الأساليب المستخدمة في الترتيب في 
بيشة الويب استخدام سلوب شهرة الروابط راعاطس۴ ذ1 ومنها الروابط الراجعة 
)صا Back‏ الذي يعتمد عليها محرك الببحث جوجل منذ عام 1998 .)۷1d_4”,1998(‏ 
وتعتمد تلك الطريقة في الحكم على صلاحية آي صفحة أو موقع ويب إلى جانب 
معايير أخرى بناء على عدد الروابط التي تشير إليها باستخدام الروابط الفائقة. 
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ومن الأساليب الأخرى المستخدمة في توسيع الاستفسارات استخدام نموذج 
اللاستفسار بالمشال عآام ٤×٣‏ رط راQue»‏ حيیث يشير مشال هنا إلى النتاتج التي يتم 
استرجاعهاء من ثم يتم استخدامها كنموذج في الحصول على نتائج أخرى. ففي 
نظم البحث عن الأصوات والصور والوسائط المتعددة من الممكن أن يستخدم 
النموذج من المستفيد مباشرة مثل استخدام رسم باليد igniSج Hand Drawn‏ 
١ءاءSk‏ يقوم المستفيد بإدخاله إلى النظام» كمايمكن أن يقوم المستفيد بإدخال 
نغمة معينة للببحث عن الأصوات. وتعتمد العديد من نظم استرجاع المعلومات التي 
تعمل في بيئة الإنترنت على أساليب التوسيع من خلال علاقات التشابه والصلاحية 
الراجعة باستخدام الربظ الفاق الى يكن الخد الق ر عليه هل اکر من ها 
.More Like This‏ 


تعد عملية تعديل الاستفسار إحدى أهم آليات تحسين النتائج المسترجعة والتې 
تعتمد على مراجعة الاستفسار من خلال اقتراح مصطلحات في صناديق البحث أو 
الإأنترنت» من ثم فإن له تطبيقات عدة في العصر الرقمي. 


7.4 بحث قواعد البيانات المتعددة 


Multiple Databases search 


يستخدم مصطلح البحث في قواعد البيانات المتعددة أو البحث العام أو البحث 
المجمع في الإشارة إلى عمليات الببحث في أكثر من قاعدة بيانات أو أداة ببحث 
بالتزامن في الوقت نفسه. ويشير مصطلح قاعدة البيانات هنا إلى آي نظام استرجاع 
معلومات سواء كان محرك بحث أو فهرساً أو قاعدة بيانات.. الخ. ويتميز هذا النمط 
من أنماط البحث بثلاث مميزات أساسية هي: 


1. أن البحث في نظام استرجاع معلومات واحد قد لا يسترجع كل النتائج التي 
يحتاج إليها المستفيد» نظراً لأن لكل نظام تغطيته الموضوعية ونقاط تركيزه 
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وملامحه الخاصة التي تختلف عن نظام آخر» وفي هذه الحالة لاإبدمن 


2. البحث المتعدد قد يساعد المستفيد على عملية اختيار المصدر الملائم 
للببحث» إذا كان المستفيد غير متأكد أو مدرك للنظام أو النظم الملائمة 
لاستفساره. فالمستفيد المبتدئ يمكنه أن يعتمد على البحث المتعدد للتعرف 
إلى المصادر المتاحة ثم الانتقال إلى مرحلة التحديد والفلترة من خلال 
التصفح.. 

3. النتائج التي يحصل عليها المستفيد من البحث المتعدد تساعده على التعرف 
إلى النظم الملائمة للإجراء ببحث فيها في المستقبل» بمعنى أن البحث المتعدد 
يعمل هنا کنظام تو صي .Suggesting Systems‏ 


عند إجراء الببحث فى قواعد البيانات المتعددة يجب على المستفيد أن يراعى 
الاختلافات في تراكيب الانتسارات Query Syn٤4×‏ واللغة وقدرات البحث الكاة 
بكل نظام من أنظمة استرجاع المعلومات المستخدمة في البحث المتعدد» حيث 
إن الملامح الأساسية والشائعة في أحد النظم قد لا تكون متاحة في نظم أخرى. 
كما أن الملامح والإمكانيات البحثية الشائعة في أكثر من نظام قد يتم التعبير عنها 
وتفسيرها بطرق مختلفة من نظام لاخر. فعلى سبيل المثال تستخدم قواعد بيانات 
المعامل البوليني 4۸2 بينما تستخدم محركات البحث معامل الجمع (+) في 
الدلالة على عمليات الربط بين المفاهيم المتنوعة بغرض تحديد نطاق البحث. كما 
توظف العديد من قواعد البيانات المعامل ۸١2‏ على أنه الإعداد الافتراضى ااة؟ ء5 
ت ا ا ی یی کا وار ا د ا 
من قواعد البيانات الأخرى المعامل 0۸ كإعداد افتراضي. 

وتجدر الإشارة إلى ن اللغات المستخدمة في التكشيف بالنظم المتعددة في الغالب 
ماتكون غير متشابهة» فتوجد احتمالات لاستخدام اللغات الطبيعية وأخرى لاستخدام 


اللغات المضبوطة فى قطاعات موضوعية مختلفة. ومن الصعوبات الأخرى التى تواجهها 
نظم البحث المتعدد هو كيفية معالجة شكال البيانات المختلفة مثل: الشكل سكي ۸8٥1١‏ 
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لتمثيل البيانات والفهارس المقروءة آلياً 14۸0 والتي يتم تخزينها في قواعد البيانات. مع 
العلم آنه يتم استخدام بروتوكول 239.50 لخدمات استرجاع المعلومات وهو البروتوكول 
المخصص لتطبيقات المكتبات إلى جانب معايير أخرى كمعايير التشغيل التبادلي ومنها 
على سبي RDF Resource Description Framework رlaعم Jind‏ لمعالجة کل شكال 
البيانات لأغراض الاسترجاع. لذلك فإن النظم التي تتوافق مع معيار 239.50 يمكن 
إجراء البحث المتعدد فيها بسهولة بصرف النظر عن الاختلافات في شكال البيانات أو 
مدى تقاربها الجغر في .(Michael & Hinnebusch,1995)‏ 


ويعد معيار 239.50 المعيار الأساسى المعتمد من جانب المؤسسة الوطنية 
لمعايير nlعلg Standards Institute ln‏ 1 لتطبيقات فهارس 
المكتبات المتاحة على الخط المباشر 0۲۸٣٥‏ وفهارس الويب ۷60۶۸٣‏ وغيرهامن 
نظم استرجاع المعلومات من قواعد بيانات ببليوجرافية وقواعد بيانات نصوص كاملة. 
ويعتمد معيار 239.50 على استخدام واجهة موحدة بصرف النظر عن الواجهة التي 
یستخدمها کل نظام على حدة. 


ومع نمو متطلبات العمل في بيئة الويب ظهرت معايير جديدة للببحث 
والاسترجاع في هذه البيئة» منها خدمة البحث والاسترجاع من الويب (1۸٥4۲ع‌S‏ 
)١ Retrieve WebSearvice -SRW‏ والببحث والاسترجاع من خلال معين المصادر 
lئgnحد “êg .(Search Retrieve Via URL -SRU)‏ تم تصميم هذين البروتوكولين 
لتيسير إجراءات الببحث سواء إرسال الاستفسارات أو تلقي النتائج في بيئة الوبب. 
فعندما يقوم المستفيد بإرسال استفسار عبر نظام بحث متعدد فإن تراكيب التعبير 
عن الاستفسار قد تختلف من نظام لآخر» كذلك شكل نتائج الاستجابة» حيث 
إن الاستجابة لا تقتصر فقط على نتائج الببحث ولكن أيضا على شكل المعلومات 
.Formatting Information‏ وأحيانا يتم الدمج بين البروتوكولين 7اW/5SR S۸‏ معا 
في بروتوكول واحد يتم الإشارة إليه بالمختصر (88۷10) والذي يقوم بمعالجة 
مشكلات التراكيب المتنوعة والاستجابات المختلفة في نظم البحث المتعدد. 


وقد صدر هذا المعيار S8۷17‏ عن مكتبة الكونجرس الأمريكية ويعد أحد المعايير 
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الأساسية التي تراعيها المكتبة في تطبيقات نظم استرجاع المعلومات الببليوجرافية 
.)Library of congress, 2008(‏ ویساعد بروتو کول S8۷۷0‏ على إجراء الببحث 
المتعدد من خلال وكيل بحث يقوم بإجراء البحث في قواعد البيانات المتاحة على 
الويب واسترجاع النتائج بسلاسة دون الحاجة إلى استخدام بروتوكول 239.50 الأكثر 
تعقيدا .)M0۲22,2004(‏ فعند المقارنة بین بروتو كول 58۷\0 وبروت و کول 739.50 
نجد أن بروتوكول 58۷۷0 أكثر سهولة في التطبيق ويؤدي نفس الوظيفة الدلالية 
لبروتو كول (2016 ,2015 ,2004 .Z39.50 (Levan, 2003, Mohamed,‏ 


وإلى جانب التحديات التي سبق ذكرها فيما يتعلق بالبحث المتعدد» فإن دمج 
النتائج Results Merging‏ التي يتم استرجاعها من قواعد البيانات المتعددة يعد 
أيضاً من الأمور المهمة في هذا المجال. فعلى سبيل المشال أصبح أسلوب عرض 
النتائج مرتبة نموذجاً ومطاباً أساسياً متزايداً في بيئة الويب. فمن غير الطبيعي أن 
نتوقع حصول النتيجة التي جاءت في الترتيب رقم 1 من نظام استرجاع معين على 
نفس الترتيب عند دمج النتائج مع نتيجة أآخرى حصلت على ترتيب رقم 1 من نظام 
آخر» وعادة مايتم استخدام اساليب دمج البيانات Data Fusion‏ کنموذج لدمج 
التتائج في البحث المتعدد بقواعد البيانات للحصول على أفضل قائمة نتائج مرتبة 
عند استخدام هذه الحلول. وقداختبر خالد عبدالفتاح محnد (Mohamed,2004)‏ 
ثلاث خوارزميات وبدائل دمجها وتدويرهاء لإجراء الدمج والفرز للنتائج من ثلاث 
محركات بحث» وتوصل إلى آنه لا توجد خوارزمية دمج تحقق نتائج أفضل من باقي 
الخوارزميات ونه لابد من الدمج بين أكثر من حل من الحلول المنطقية التي يتم 
تطبیقها على الهراء ر۴1 ١1ا 0١‏ عند دمج وترتيب النتائج المسترجعة من أكثر من 
محر بحث لأغراض بناء ما وراء المحركات. وقد خصص موتمر 1۸۴٣‏ مسارا 
خاصاً لدمج وفرز التتائج لأغراض البحث المتعدد من المصادر غير المتجانسة 
Heterogenous‏ وعر ضھا في قائمة موحدة )2000 .(Voorhees & Hanman,‏ 


وعادة مايتم تطبيق البحث في قواعد البيانات المتعددة من خلال موردي قواعد 
البيانات مثل Proguest, EBSCOHOST, DIALOG‏ کما ان ما وراء محر کات الویب 
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تؤدي وظيفة شبيهة بعمليات البحث المتعدد بقواعد البيانات والفهارس» حيث 


تسترجع النتائج من أكثر من محرك بحث واحد على الإنترنت. ويوجد ثلاثة أنواع 
أساسية للبحث فى المصادر المتعددة يوضحها الشكل التالى: 


1 
اقهارس اتد | 


الفهارس المتعددة 


البحث في قواعد البيانات 


ماوراء المحركات 
البحث في الويب 
البحث النطاقي 


7.4.1 الفهارس 
يشتمل هذا النوع على نمطين أساسيين هما: 


- النمط الأول: الببحث في الفهارس الأخرى ويعتمد على استخدام بروتوكول 
0 لربط قهرس المكة بفهازرس المكبات الأغخرى» مايمكن المسفد 
من الببحث فى تلك الفهارس عند الحاجة. 


النہمط الثاني: یستخدم في بناء الفهارس الموحدة والذي يعتمد أيضاً استخدام 
آسلوبين آساسيين قى البتاء هما (محما) 2011 


الفهارس الموحدة المر کjية Physical Union Catalogs‏ والتي تقوم بتجميع 
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الببحث المجمع. ويعتمد هذاالنوع على بروتوكول 239.50 في تجميع 

ه٠‏ الفهارس الموحدة ائتخيlية Union Catalogs‏ 1 التي يتم فيها 
بناء واجهة موحدة يمكن من خلالها البحث في كل الفهارس المستقلة 
دون الحاجة إلى تجميع الفهارس في قاعدة بيانات موحدة مع إجراء 
هذه الفهارس مزیجا من بروتوكولات 239.50 وبروتوكولات الروابط 
المفتوحة .SRW/U‏ 


7.4.2 البحث فى قواعد البيانات المتعددة 
يوجد أسلوبان أساسيان شائعان الآن لهذا النمط من آنماط البحث هما: 


البحث الفيدرالى 2۲1م 4ءtهإمل۴‏ والذي اعا اس تاب 
الفهارس الموحدة التخيلية؛ حيث يستند إلى واجهة موحدة تقوم بتلقي 
استفسارات المستفيدين وإرسالها إلى قواعد البيانات المستقلة وتسترجع 
التتائج منها ثم تقوم بدمجها في قائمة موحدة وعرضها مرتبة للمستفيد وتتم 
_ البحث الاستکشافى S21٥1‏ yام۷هءءi[:‏ ويعتمد هذا النمط على نفس 
سلوب عمل الفهارس الموحدة المركزية؛ حيث يقوم بتجميع كل التسجيلات 
في قاعدة بيانات ميتاداتا موحدة تستخدم للببحث في قاعدة البيانات المركزية 
دفعة واحدة» بدلاأ من إجراء البحث في قواعد البيانات المستقلة. من ثم 


1. الويب: يتم الببحث في شبكة الويب بالاعتماد على آليات استكشاف مصادر 


آليات الاسترجاع وتمتيل الاستفسارات 


المعلومات المتاحة من خلال محركات البحث. بمعنى آخر آنه يستخدم 
إمكانيات محر كات البحث فى استكشاف شبكة الويب بالاعتماد على آليات 
عمل تلك المحركات والتي تسقخدم آدوات مثل الزواحف .٥۲۵ ۷1٥۲8‏ وتوجد 
طریقتان آساسیتان يمكن من خلالهما استكشاف محركات البحث هما: 


ه٠‏ ماوراء المحركات Meta Search Engines‏ وهي عبارة عن أداة ببحث 
تستطيع البحث في أكثر من محرك في نفس الوقت. تقوم تلك الأداة بتلقي 
اسقسار اك السفيدين وإر الها الى محر كات الح العدة اهال 
النتائج من تلك المحركات وإجراء عمليات الدمج. بمعنى إنشاء قائمة نتائج 
موحدة وفرز تلك النتائج وفقاً لإحدى خوارزميات الفرز ثم عرض النتائج 
ااب داه ایاج ا0ا 

٠‏ البحث النطاقى للويب ع١‏ 1طء۲دءS؟‏ عاaءS‏ ا۷ يعتمد هذا النمط على 
اسفال ابات محر كات الح قن اراد امشات فطاع روعي 
أو مجموعة محددة من القطاعات بقاعدة بيانات أو بمجموعة من قواعد 
البيانات أو المحركات أو نوعية معينة من المصادر سواء كانت نوعية معينة 
من الوثائق مثل الصور أو الملفات المسموعة أو الفيديو ,e0ل۷1‏ ,مع1.4 
youtube‏ أو قطاعاً خا مثل الوثائق العلمية كماهو الحال Google Scholar,‏ 
.Pubmed, CiteseerX‏ وهو فى هذه الحالة يشبه البوابات المتخصصة فى 
اعات مر ترا ما آر شات رت سن الرلائق لكد و كر البحت تى 
ان دة من الزات مخ كات المحف: ۰ 


7.5 اختيار الية البحث 


اتضح من العرض السابق آنه توجد أدوات بحث متنوعة يمكن للمستفيد النهائي أن 
يستخدمها ويوظفها لإجراء عمليات البحث عن المعلومات. وتوجد العديد من العوامل 
التى يجب أن يراعيها المستفيد عند اختيار آلية الببحث الملائمة. وسوف تركز المناقشة 
في هذا الجزء على اختيار آلية البحث بناءً على وظائفها وآداء نظام استرجاع المعلومات. 
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7.5.1 وظائف اليات الاسترجاع 


تعمل آليات الاسترجاع المختلفة بأساليب متنوعة» ولكل آلية طريقة في الأداء 
تساعد المستفيد على تحقيق أهدافه من البحث بشرط استخدام الطريقة الملائمة في 
الموقف البحثي. فعلى سبيل المثال استخدام البتر يساعد على استرجاع الأشكال 
المختلفة للمصطلح والتي تتشابه معاًفي أجزاء من هجائها وشكل كتابتها وتحمل معنى 
مشتركا أو مرتبطا. ويقوم البحث الغامض أو المجرد بالتعامل مع أخطاء الهجاء وبرامج 
التعرف الضوئي على الحروف في حالة المطابقة ة أو المضاهاة بين الشكلين المختلفين 
للمصطلح. لذلك فإن السؤال الأول الذي يجب أن يسأله المستفيد قبل إجراء البحث» 
وبعد تحديد سلة المصطلحات اللازمة للبحث» هو ما هي آلية البحث الملائمة لتحقيق 
الهدف من استرجاع المعلومات. وبمجرد الإجابة عن هذا السؤال يستطيع المستفيد 
تحديد الآلية الملائمة لطبيعة العبارة البحثية التي يرغب في البحث عنها. 


7.6 أداء نظام استرجاع المعلومات 


عادة مايتم قياس أداء نظم استرجاع المعلومات بالاعتماد على مقاييس الاستدعاء 
والتحقيق» على الرغم من أن هذين المقياسين هما محل جدل دائم بين المتخصصين. 
وسوف يركز هذا القسم على الاستدعاء والتحقيق كمقياسين من مقاييس الأداء 
وسوف يترك الجدل الدائر حولهما للدراسات التي تناولت تقييم الأداء في نظم 
استرجاع المعلومات. 


التحقیق 10۸ءec1إP‏ يتم حساب معدل الوثائق الصالحة المسترجعة إلى إجمالي 

عدد الوثائق المسترجعة من النظام؛ حيث يختبر هذا المقياس قدرة النظام على 
الفصل» بمعنى قدرته على عزل الوثائق قى غير الصالحة واسترجاع الوثائق ق الصالحة 
فقط. نفترض أنه تم استرجاع 100 وثيقة لاستفسار معين» وتم الحكم على 35 وثيقة 
فقط منها آنها صالحة» يكون معدل التحقيق في النظام هو 35./. 


التحقيق = عدد الوثائق الصالحة المسترجعة / إجمالى عدد الوثائق المسترجعة × 100 


آليات الاسترجاع وتمتيل الاستفسارات 


الاستدعاء 11ء۸ يتم حسابه بمعدل الوثائق الصالحة المسترجعة إلى إجمالي 
عدد الوثائق الصالحة في النظام بأكمله. ويختبر هذا المقياس القدرة الاسترجاعية 
yانا R٣‏ لنظام استر جاع المعلومات. نفترض أنه يوجد 100 وثيقة صالحة في 
النظام بأكمله في موضوع معين» عند إجراء البحث في النظام عن هذا الموضوع» تم 
استرجاع 45 وثيقة فقط من ثم يكون معدل الاستدعاء في هذا النظام 45./. 
الاستدعاء = عدد الوثائق الصالحة المسترجعة / إجمالي الوثائق الصالحة في النظام × 100 


وعلى الرغم من أنه كلما ارتفعت النسبة التي يتم حسابها لي من المقياسين» كان 
أداء النظام أفضل؛ إلا أنه من المستحيل الحصول على نسبة مرتفعة للمقياسين معاً 
وذلك لوجود علاقة عكسية بينهماء والتى تشير إلى أنه كلماارتفعت نسبة التحقيق 
انخفض نسبة الاستدعاء والعكس. ويرجع ذلك إلى أن الجزء الأول من المعادلة في 

وبالنظر إلى أداء نظم استرجاع المعلومات من حيث آليات الاسترجاع فإنه يمكن 
تقسيم تلك الآليات إلى: 

- آليات تحسن التحقيق مشل استخدام المعامل البوليني ۸۸2 والبحث بالوزن 

اي 

- آليات تحسن الاستدعاء مثل المعامل البولينى 0۸ والبحث المجرد. 

لذلك» فإن اختيار آلية البحث لابد أن تراعى مستوى الأداء الاسترجاعى الذي 
يرغب المستفيد فى تحقيقه من العبارة البحثية» فإذا كان المستفيد يرغب فى مستوى 
عال من التحقيق فعليه اختيار الآلية الملائمة لذلك الغرض والعكس. 


7.6.1 اليات الاسترجاع لتحسين التحقيق 


يساعد المعامل البوليني 4١ND‏ على تحسين مستوى التحقيق من خلال المزج بين 
مصطلحين فى العبارة البحثية لتحدید مستوی الدقة اللازم في العلاقة بين المفاهيم 
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المصطلحات الثلاثة: تسوية» النزاعات» الإإقليمية» فإنه يمكنه الحصول على نتائج 
دقيقة من خلال استخدام المعامل البوليني 4١2‏ في الربط بين المصطلحات الثلاثة 
ما إذا تم استخدام مصطلحين فقط في العبارة البحثية واستبعاد الثالث» فإن عدد 
SS SE o 8‏ 


المعامل البوليني 1 يساعد أيضاً على تحسين مستوى الدقة في النتائج 
المسترجعة من خلال حذف المصطلحات التي لا يرغب المستفيد في استرجاعها 
ضمن قائمة النتائج . نفترض أنه يوجد مستفيد يرغب في البحث عن وثائق تسوية 
التزاعات الإقليمية وليس الدولية» فإن المعامل البوليني N01‏ يجب أن يستخدم في 
هذه الحالة لتحقيق الخرض من العملبة البحقة. ويمكن صياغة الاستراتيجية كالتالى: 
(تسوية ۸۸2 نزاعات ۸١D‏ أقليمية) N0١‏ دولية. ولاحظ استخدام الأقواس ایند 
الأولويات البحثية. 


يساعد البحث بالحروف الحساسة على زيادة الدقة من خلال التمييز بين الحروف 
الرومانية. فكما أوضحنا من قبل» عند البحث عن العلامة التجارية ا#عإه1 أو محال 
1 يتطلب كتابة الحرف ۳ الكبير أما عند الحاجة إلى البحث عن المصطلح 
1 بمعنى هدف أو غاية» فإن المستفيد في هذه الحالة بحاجة إلى استخدام حرف 
ال] الصغير. وإذا كان النظام لا يتيح إمكانية إجراء البحث بالحروف الحساسة» وهو 
الحال في الغالبية العظمى من النظم الحالية» بالتالي لن يكون أمام المستفيد آي 
خيار في التمييز بين الحروف. من ثم سيقوم النظام باستر جاع كل الوثائق التي تتناول 
المصطلح 4/8 دون تمییز بين دلالة المصطلح في كل حالة» مايؤثر في 
معدل دقة أداء نظام استرجاع المعلومات بصورة سلبية. 


المعامل طا الذي يستخدم في البحث بالتقارب يساعد أيضاً على تحسين مستوى 


الدقة في النتائج» نظراً إلى أنه يحدد الترتيب الذي يجب أن تظهر فيه المصطلحات 
في النتائج المسترجعة كما وردت في العبارة البحثية (اللاستفسار). فعند البحث عن 


آليات الاسترجاع وتمتيل الاستفسارات 


المصطلحين information with technology‏ لابد ù‏ يسترجع النظام وثائق تتناول 
للترتيب الوارد فى الأستفسار مثشل technology information , inform ati01 and)‏ 
yعtechno10)‏ حیث إنھا سوف تسترجع نتائج غير دقيقة بناء على الترتيب الذي 
حدده المستفيد في الاستفسار الأساسي. 
ذلك الال بالسبة لمال هاا 1 فانة ساعد غلى تين مسترى الدقة حت إن 
یحدد عدد الكلہمات التي تقصل بين الصطلحات المستخدمة في الاستفسارمع مراعاة 
الترتيب الوارد فى صياغة الاستفسار وفقا لعدد د من الكلمات التى يربط بينها المعامل. 
٠‏ ضبط المسافات + 8012 يعد أيضا من آليات تحسين مستوى الدقة فى 
المسغخاة قى الامسان ما بماغد الم دغل ال ك غل جانب 
من جوانب الموضوع بصورة أكبر والحصول على نتائج مطابقة لتوقعاته. 
فعلى سبيل المثال عند الببحث عن موضوع (تسوية التزاعات الإقليمية) 
خلال وضع علامة (+) بجوار المصطلح وترك المصطلح الآخر من دون آي 
علامة مميزة (+تسوية + النزاعات الإقليمية). وتعنى هذه العبارة البحثية أن 
المستفيد مهتم أكثر بموضوعي (تسوية) و (النزاعات) ويجب تسليط الضوء 
على هذين الجانبين عند إجراء البحث. من ثم فإن استخدام آليات الوزن 
اللسبي للمصطلحات يساعد على تحقيق مستوى أكبر من الدقة في النتائج 
المسترجعة وفقا لنقاط الت ر كيز التى يراها المستفيد. 
ه٠‏ البحث الحقلى ع«نطءإدمS‏ 14ء٠ذ۴‏ يساعد على تحقيق الدقة فى البحث 
من خلال تقييد البحث في حقول معينة؛ حيث إن كل حقل من الحقول 
اة قى الل يكل جد ميا فن الر ف فاد قاق الت قن 
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أكثر دقة عند تقييد الببحث فى حقل المؤلف من تركهاعامة فى كل الحقول؛ 
حيث إنه من الممكن أن يرد اسم هذاالمؤلف في حقول أخرى في الوثيقة 
لا تعکر دوره كمؤّلف. 


والخلاصة أن المعاملات البولينية 01× ۸١2,‏ والبحث بالحروف الحساسة 
والمعامل 1ازw‏ المستخدم في الببحث بالتقارب والمعامل ١اس ١‏ والببحث الحقلي 
والببحث بوزن المصطلحات كلها آليات تستخدم في تحسين مستوى الدقة في 
التتائج المسترجعة. 


7.6.2 آليات الاسترجاع لتحسين الاستدعاء 


في بعض الأحيان قد يحتاج المستفيد إلى توسيع نطاق البحث للحصول على 
عدد أكبر من النتائج وتغطية كافة عناصر الموضوع الذي يتناوله بمفاهيمه المتنوعة 
وسلة المصطلحات التي حددها. وتوجد مجموعة من الآليات التي تساعد على 
توسيع نطاق البحث تشمل مايلي: 


المعامل 0۸: ويستخدم المعامل 0۸ لتوسيع نطاق البحث» حيث إنه يستخدم 
لاسترجاع أي وثيقة بظهر بها آي مصطلح من المصطلحات المربوطة بالمعامل 
0R‏ بالتالي يرتفع عدد النتائج المسترجعة ويرتفع معه معدل الاستدعاء. 
فعلي سبيل المشال عند البحث عن الانتخابات أو التصويت فإن النظام سوف 
يسترجع آي وثيقة يرد بها آي من المصطلحين إلى جانب استرجاع الوثائق 
التي يرد بها المصطلحان معاً. من ثم فإن المعامل البوليني 0۸ لايضع أي 
قيود في عملية البحث تؤدي إلى تضيق النطاق مقارنة بالمعاملين الأخرين 
„AND /NOT‏ وتجدر الإشارة إلى أنه كلما قلت القيود أو المحددات» ارتفع 
عدد الوثائق المسترجعة وارتفع معها الاستدعاء. 


هن المصطلح فى الاستفسار (مثل جذر الكلمة) Word Stem‏ واسترجاع 
كل الأشكال المختلفة في قائمة النتائج. فعلى سبيل المثال عند إجراء بحث 


آليات الاسترجاع وتمتيل الاستفسارات 


بالبتر عن المصطلح (*1ء١uه0زء)‏ فإن النظام سوف يسترجع كل الوثائق التي 
تشتمل على اأnصطlحlٽ ejournels, ejournel, ejournalist, ejournalism,)‏ 
).et‏ او غيرها من المصطلحات التي تبداً بالجزء 0۲٣21‏ زم. ومن الواضح 
أن معدل الاستدعاء لعملية البتر في هذه الحالة سوف يرتفع نتيجة لتوسيع 
نطاق البحث» ويسترجع وثائق أكبر من حالة عدم البتر التي سوف تسترجع 
الوثائق التي تضمنت سلسلة الحروف الواردة في الاستفسار فقط. 

معامل التقارب ٠٥۵۲‏ يساعد أيضا على توسيع نطاق البحث» حيث يسمح 
للنظام باسترجاع المصطلحات التي يتم ربطها بالمعامل 1٥2۲‏ بصرف النظر 
عن ترتيبها في الوثائق ق المسترجعة . من ثم فإن استخدام المعامل 163۲ في 
الاستفسارات information near technology Jia‏ سوف يسترجع وثائق 
تتنJgl Ln technology information jn jûlîgg information technology‏ 
یساعد على رفع معدلات الاستدعاء في النتائج المسترجعة. ويعمل المعامل 
1 1 بنفس الطريقة ي و ا ا ن ا عدد الكلمات 
التي يجب أن ترد بي بين المصطلحين اللذين تم ربطهما معا بالمعامل 184۲. 
البحث المجرديستخدم أيضاً وسيلة من وسائل توسيع نطاق البحث من خلال 
تحديد وتصحيح الأخطاء التي تحدث نتيجة أخطاء الهجاء أو أدوات التعرف 
الضوئي إلى الحروف وغيرها. فإذا كانت الوثيقة ثيقة تتناول موضوع 14۲»][ع» 
صم والمستفید اخطاً في كتابة المصطلح وكتبه إءادااه»؛ فإن النظام سيظل 
قادرا على استرجاع الوثيقة في حال استخدام إمكانيات البحث المجرد» من 
ثم فإن النظام کک هذه الحالة يساعد على رفع معدلات الاستدعاء. 


تعديل الاستفسار: توسيع الاستفسار يهدف إلى استرجاع عدد أكبر من الوثائق 
الصالحة من خلال تعديل الاستفسارات بناء على استخدام دفعة من النتائج 
الأولية في تحسين كفاءة الاستدعاء. ويمكن أن يتم تكرار عمليات التعديل 
وتوسيع الاستفسارات حتى يتم الحصول على العدد الكافي من الوثائق 
الصالحة» فعلى سبيل المثال نفترض أنه عند البحث بمصطلح غير متداول 


الفصل السابع 


کثیراً vector space model Jia‏ قlم‏ النظام باسترجاع 5 وثائق فقط» واستدط 
النظام من هذه الوثائق أن اسم (١٠٠1ه8)‏ كان شائعاً في هذه الوثائق الخمس. 
المصطلح العام مثل ۲۲1۷21 بالتالي يستطيع النظام أن يسترجع فا ار من 
الوثائق فى الدفعة‌الثانية تضاف إلى الدفعه الأولى لتحسين مستوى‌الاستدعاء. 

النحت فى المصاذر الكخدةة تعد أيضا مسن آلبات تسين ترق الأسعدغا 
بسبب استخدام أكثر من قاعدة بيانات واحدة في البحث» ما يعطي الفرصة 
لاسترجاع عدد أكبر من الوثائق الصالحة من التي يتم استرجاعها من قاعدة 
بیانات وأاحدة. 


من ثم يمكن القول إن المعامل البوليني 0۸ والبتر ومعاملات البحث بالتقارب 
near, n ne1‏ والہحث الغاممض أو المجرد وآليات توسیع وتعديل الاستفسارات 
والببحث في قواعد البيانات المتعددة كلها آليات تساعد على توسيع نطاق الببحث 
بطريقة أو بأخرى. وعلى الرغم من أنه ليس شرطاً أن تحقق زيادة عدد النتائج 
المسترجعة مستوى مرتفعاً من الاستدعاء؛ لأنها يجب أن تكون نتائج صالحة؛ إلا أنها 
ترتفع معها احتمالات زيادة معدلات الاستدعاء لآي استفسار. بالتالي فإن المستفيد 
يجب أن يكون على وعي كامل كيف يؤثر كل سلوب من أساليب الببحث في 
معدلات الاستدعاء والدقة في عمليات البحث حتى يستطيع المستفيد اتخاذ القرار 
المناسب واستخدام آلية الببحث الصحيحة التي تتناسب مع احتياجاته. 


7.7 تمثيل الاستفسارات 


query representation 


يتم التعبير عن الاحتياجات المعلوماتية لفظياً باستخدام المصطلحات الملائمة 
قبل إجراء عملية الببحث ويطلق على الاحتياجات المعلوماتية التي يتم صياغتها في 
صورة مجموعة من المصطلحات التي يتم الربط بينها (طلبات البحث والاسترجاع 
باستخدام اللغة الطبيعية). ويتم تحويل طلب البحث إلى استفسار باستخدام 


آليات الاسترجاع وتمتيل الاستفسارات 


إمکانیات نظم استرجاع المعلومات مثل بنية الاستفسار ×ة٤٣ل؟S‏ رإامQu‏ وتقنيات 
الاسترجاع Retrieval Techniques‏ والمصطلحات المضبوطة في حال استخدامها. 
وجلو على عم ربل الاش اجات الحار مايا إلى عار هة طلم تقل 
الاستفسار)» والذي يعد آهم العناصر المؤثرة في عملية الببحث وأداء نظم استرجاع 
المعلومات )2000 .(Sparck,‏ 


7.7.1 خطوات تمثيل الاستفسارات 


تعد عملية تمثيل الاستفسارات إجراء فكرياً يتضمن من الخطوات التالية: 


1 


المفاهيم أو الأوجه. 

إعداد سلة المصطلحات الخاصة بكل مفهوم والتي تشمل المترادفات والمصطلحات 
الأوسع والأضيق. 

ترجمة المصطلحات إلى لغة النظام سواء كانت اللغة الطبيعية أو المضبوطة 
عند ترجمة المفاهيم إلى مصطلحات بحثية. 

إعداد استراتيجية البحث والتي تشمل الربط بين المصطلحات والمفاهيم 
باستخدام المعامل البوليني 0۸ مع المترادفات» والمعامل البوليني A۸۸‏ 
للربط بين المفاهيم» والمعامل N0١‏ لاستبعاد أحد أوجه المفاهيم غير 
المطلوبة فى الاستفسار. 

تطبيق آليات الببحث والاسترجاع الأخرى مثل البحث المجرد أو البحث 
الحقلي.. إلخ في حالة الحاجة إليها. 


وعلى الرغم من أن هذه الخطوات ما هي إلا مجرد تعليمات لممارسات شائعة 
ومقترحة؛ إلا أنها تتضمن جوهر عملية تمثيل الاستفسارات. ومن الممكن أن تكون 
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هناك مجموعة من الاختلافات في الممارسة الفعلية ويم فيمايلي مناقشة عملية تمثيل 
الاستفسارات خطوة بخطوة مع مراعاة دورها الرئيس في عمليات استرجاع المعلومات. 


7.7.1.1 تحليل المفاهيم 


concept analysis 


يتم في المرحلة الأولى من تمثيل الاستفسارات تحليل طلب البحث إلى مجموعة 
المفاهيم الأساسية أو الآوجه ا١۴‏ فعلى سبيل المثال إذا كان طلب المعلومات هو 


الخصول على الوثائق التي تشاول الموضوع التالي: 


تسوية الصراعات فى الشرق الأوسط. 


فبتحليل الطلب السابق نجد أنه يشتمل على ثلاثة مفاهيم مختلفة كما يوضحها 
الجدول الال 


المفهوم (1) المفهوم (2) المفهوم (3) 
تسوية صراعات الشرق الأوسط 


جدول 6.2 تحليل مفاهيم طلب البحث 


في هذه الحالة من الممكن أن تكون المصطلحات المستخدمة في عملية البحث 
هى تفسها الي تبر عن المغاه إلا أن متاك سالات طهر قيا اعلانات ماين 
المفاهيم والمصطلحات» ولا توجد مضاهاة كاملة بين المصطلحات والمفاهيم. 
فعلى سبيل المثال قد يكون طلب المستفيد مشتملا على الحاجة إلى معلومات 
عن الأتوبيسات عاط ومترو الأنفاق كرس طنء إلا أن تحليل الطلب قديوضح أن 
المستفيد بحاجة إلى استخدام مصطلح (المواصلات public transportation (nll‏ 
في البحث بدلا من الأتوبيسات ومترو الأنفاق في تمثيل الاستفسارء إضافة إلى ذلك 
یجب استخدام الأعلام والمسميات الاصطلاحية في جمل اسم «Noun Phrases‏ 
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في تمثيل المفاهيم. ويتم تمثيل الأفعال التي ترد في الطلبات باستخدام معاملات 
الربط البوليني» أما الأجزاء الأخرى من الطلب مثل الحروف والكلمات الوظيفية 
فلايتم استخدامها في تمثيل المفاهيم التي ترد في طلبات المستفيدين. ومن ثم 
فإن تحليل المفاهيم يركز على الأسماء الاصطلاحية والجمل الاسمية التي ترد في 
طلبات المستفيدين ويقوم بتحويل هذه المفاهيم إلى مصطلحات. 


7.7.1.2 تنوع (ُأشکال) المصطلحات 


Term variations 


تتنوع المصطلحات في معظم الحالات مابين مترادفات» مصطلحات أوسع» 
مصطلحات أضيق وغيرها من الأشكال. والغرض الأساسى من عملية تحديد 
المصطلحات هنو تجميخ كل الأشكال المختافة للمصطلحات الدالة على المفاهب 
التي تم تحديدها في الخطوة السابقة؛ بحيث يتم تمثيل المفهوم بصورة شاملة 
ويوضح الجدول 6.2 الأشكال المحتملة لمفهوم تسوية الصراع في الشرق الأوسط 
مع إضافة أن المطلوب هو وثائق من الويب والذي يمكن التعبير عنه كمايلي. 


جدول (7.1) تقسيم المفاهيم ويناء سلة المصطلحات 


Concept 1 Concept 2 Concept 3 
Settlelement Controversy Middle East 
Adjustement Depate Meddle East 
Compromise Dispate N 

Arab Countries‏ ا 
Equalization Coe a‏ 

Normalization Iran And Israel 

Conciliation Arab Countries 
And Iran 
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ويتضح من الجدول السابق آنه ليس شرطاً أن تكون كل بدائل المصطلحات 
وأشكالها المختلفة مستخدمة ومعروفة من جانب المستفيدين» وأن المستفيد في 
الغالب يركز على المصطلحات الشهيرة والمختصرات» فعلى سبيل المثال نلاحظ 
أن المفهوم الأول لم یشتمل على المصطلح tees‏ والذي يشير إلى الوساطة» 
ون قرار إدراج مصطلح من عدمه يعتمد على معايير ذاتية مثل توقعات المستفيد 
والاستدعاء المتوقع من جانب المستفيد ومدى تأقلمه مع الموضوع ومصطلحاته. 
فعلى الرغم من أن إدراج كل المصطلحات وأشكالها المختلفة وبدائلها المتنوعة في 
الاستفسار النهائي قد يؤثر في عملية البحث» إلا أن ذلك سوف يساعد المستفيد بعد 
الجولة الأولى من الاستفسار على تحديد المصطلحات القابلة للبحث بدقة. بالتالي 
يجب أن هم الستفيد أن علية البسة قم باسالرب الاستشار والبحك والفتيش 
Quering, Searching, Snooping‏ و أن عملية الببحث هي عملية مستمرة تتم على 
جولات متعددة حتى يصل المستفيد إلى أفضل النتائج. 


ويساعد هذا الإجراء على تحديد كل الأشكال والبدائل المختلفة للمصطلح» والذي 
والأنطولوجيات وقوائم الكلمات والتقسيمات إلى فقات.. الخ. 


7.7.1.3 تحويل المصطلحات 


Terms conversion 


المعلومات» فإنه يجب تحويل المصطلحات التي يتم التعبير عنها باللغة الطبيعية إلى 
نظام المصطلحات المستخدم بالنظام. أما في حالة استخدام اللغة الطبيعية في التعبير 
مصطلحات الاستفسار من خلال الأدوات المساعدة مثل القوائم المضبوطة والقواميس. 
وتتطلب عملية تحويل المصطلحات أن يكون المستفيد على دراية ووعي بكيفية توظيف 
اللغة المضبوطة المستخدمة بالنظام» ويمكنه استخدام أي من الأساليب التالية: 


آليات الاسترجاع وتمتيل الاستفسارات 


Exact Equivalent ةlnlکلا ا. المطابقة‎ 


المطابقة الكاملة تعني استخدام المصطلح المخصص والمطابق بالكامل للمفهوم 
الذي يسعى المستفيد إلى الببحث عنه من قائمة المصطلحات المضبوطة. ويعد هذا 
الأسلوب أسهل أساليب تحويل المصطلحات» فعلى سبيل المغال إذا كان المستفيد 
يبحث عن الشرق الأوسط فالمطابقة التامة هنا تعني استخدام مصطلح مواز تماماً 
للمفهوم دون التوسيع أو التضييق. 

. استخدام المترادفات والمصطلحات المرتبطة 


Synonyans or Related Terms 


يهتم هذا التوجه بالاعتماد على قوائم المصطلحات المضبوطة لاشتقاق المترادفات 
والمصطلحات المرتبطة بالمفهوم» بالتالي لابد أن يبذل المستفيد جهداً إضافياً في 
عملية اختيار هذه النوعية من المصطلحات من قائمة المصطلحات المضبوطة» والتى 
تعد قريبة في المعنى من المصطلح الذي يبحث عنه المستفيد. 

ا1. استخدام المصطلح الأوسع Broader Terms‏ 

إذا لم توجد مصطلحات مساوية أو مترادفات للمفهوم الذي يبحث عنه المستفيد 
يجب استخدام المصطلح الأوسع في الدلالة على المفهوم» كمايجب استخدام 
المصطلح الأوسع في الحالات التي قد يتأثر فيها البحث سلباً عند استخدام 
المصطلح المخصص في عملية تحويل المصطلحات. 

۷. استخدام المصطلح الضيق ١2۲۲٠٠۲ ۲١۲"۶‏ 

في بعض الأحيان قد يكون للمفهوم الذي يبحث عنه المستفيد مصطلحات أضيق 
أوسع منه. في هذه الحالة يضطر المستفيد إلى استخدام المصطلحات الأضيق في 


الدلالة على المفهوم من ثم يتم تقسيم المفهوم الذي يبحث عنه المستفيد إلى 
نطاقات أو مجموعة من المصطلحات الأضيق. 
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۷. استخدام الأسماء 


اانا تد جت العا عن اسماء مل اسماء ار كات والاشخاص راليهجات 
أو الآماكن.. إلخ أو غيرها من الأسماء الجديدة التي لا يوجد لها بدائل موازية بقوائم 
المصطلحات المستخدمة في النظام. وفي هذه الحالة لاإبد من استحداث مصطلح يُطلق 
عليه مُحدد إعاانا ٣ء1‏ لإجراء عملية التحويل الاصطلاحى. ومن الوارد جدأأن يكون 
لطاع ية هر الفمف دالت ت يعاري واا عة 
استخدام المصطلح المساوي» فإن كل أساليب التحويل الأخرى تتطلب عملية تفسير 
للمفاهيم لأغراض التحويل. وتؤثر دقة عملية تفسير المفاهيم في دقة المصطلحات التي 
يتم تحويلها للتعبير عن المفاهيم التي يرغب المستفيد في البحث عنها. 


7.8 تطبيق المعاملات البولينية 


Application of bolean operators 


نفترض أن المصطلحات التي تم تجميعها في جدول (7.2) للدلالة على المفاهيم 
الثلاثة التى يبحث المستفيد عنها تمثل الأشكال الصحيحة للمصطلحات الملائمة 
من ثم فالخطوة التالية هي تطبيق المعاملات البولينية في الربط بين المصطلحات 
المختلفة الدالة على المفاهيم الثلاثة السابقة. وعلى الرغم من وجود بعض 
الاختلافات فى التطبيق توجد قاعدتان أساسيتان لتطبيق المعاملات البولينية: 
1. ربط كل المصطلحات الدالة على نفس المفهوم والمصطلحات التي تنتمي 
إلى سلة مجموعة واحدة باستخدام المعامل OR‏ 
2. استخدام المعامل 4۸2 للربط بين المفاهيم المختلفة بمعنى الربط بين كل 
المجموعات» بحيث يمثل كل منها مفهوماً مختلفاً باستخدام المعامل ۸۸D‏ 
وفي بعض الأحيان القليلة والاستنائية استخدام المعامل "0. 


يوضح الجدول 7.2 هذه العملية كمثال للمفاهيم التي تم تجميع المصطلحات 
الال فان جو 


آليات الاسترجاع وتمتيل الاستفسارات 


Group 1 Group 2 Group 3 
Settlelement Controversy Middle east 
OR OR OR 
Adjustement Depate MENA 
OR OR OR 
Compromise Dispate Arab Countries) 
OR OR AND Israel 
Equalization Conflect NOT 
OR (Iran 
Normalization 
OR 
conciliation 
Group (1) AND Group (2) AND Group (3) 


ويتضح من الجدول السابق أمران مهمان هما: 


عدد المصطلحات التي تم استخدامها للدلالة على المفهوم الواحد والتي يستخدم 
معها المعامل 0R‏ أو N0١‏ - كماهو الحال في المفهوم الثالث الذي تم استخدام 
1 معه لاستبعاد إيران من العبارة البحثية -يزداد كلمااتسع المصطلح وتعددت 
جوانبه. وهنايرد سؤال مهم: هل هذه العملية لانهائية» بمعنى هل يجب استخدام كل 
المترادفات والمصطلحات المرتبطة والأوسع والأضيق والمساوية للدلالة» لبناء سلة 
المصطلحات الدالة على المفهوم؟ 


الإجابة بالطبع تتوقف على حجم النتائج التي يرغب المستفيد في الحصول عليهاء 
إضافة إلى طبيعة تمثيل تلك النتائج بقاعدة البيانات» مع مراعاة آنه كلما ازداد عدد 
المصطلحات التي يتم ربطها باستخدام المعامل 0۸» ازداد عدد النتائج المسترجعة. 
وعلى الجانب الآخر كلما انخفض عدد المصطلحات التي يتم ربطها باستخدام 
المعامل 0۸ انخفض عدد النتائج المسترجعة الدالة على المفهوم أو المجموعة 
الواحدة. وفى حالة زيادة عدد المصطلحات على الحدود المقبولة (مصطلحان 
سے ا م غ ا دا 
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يضع كل المصطلحات ويرتبها من حيث الأولوية والآهمية بالنسبة إليه» وأن يختار 
من بينها الأكثر دلالة على المفهوم الذي يرغب في البحث عنه» ون يربط بينها 
باستخدام المعامل 0۸. ومن الواضح أن الشكل السابق لم يوضح عدد المصطلحات 
المستخدمة في الدلالة على كل مفهوم» حيث تم شرح المفهوم الخاص باستخدام 
المعامل 0۸ لأن قرار تحديد المصطلحات وأهميتها وأولويات البحث» قرار ذاتي 
يتعلق باحتياجات المستفيد ومدى عمقها ومدى أهمية كل مصطلح بالنسبه له. 


الآمر الثاني الذي يجب توضيحه فيما يتعلق بالجدول 7.2 هو استخدام الأقواس» 
فعند مناقشة البح البوليتي سايقا تمت الإشارة إلى غملية الترتيب في البحت 
البوليني الnرکٳ »€combound Bolen Search‏ فالجدول 7.2 یمثل هذا النموذج م 
الببحث الذي يتطلب استخدام الأقواس لتحديد الترتيب في عملية البحث المنطقي. 


وفي حالة عدم استخدام الأقواس فإن المصطلح الأول في المفهوم الثالث 
9 eاMid)‏ عندما يتم ربطه أولاً بقائمة النتائج الخاصة بالمصطلح الأخير 
ectاeonf‏ الخاص بالمفهوم الثاني 00۷5¥ سوف يؤثر في دقة النتائج التي 
يرغب المستفيد في الوصول إليها. لذلك لاإبد من استخدام الأقواس في العبارة 
البحثية لتحديد الترتيب وأولوية الببحث عن المصطلحات فى إطار علاقاتها بطلب 
الس ا0ال رت المح في المجمرعة اهال ف تجلية هدد الات ال ج 
لكل مجموعة وربطه بالمجموعة السابقة. 

وتجدر الإشارة إلى أن البحث البوليني أثبت جدارته كأساس لعمليات البحث 
في معظم آنظمة استرجاع المعلومات؛ حيث إن المنطق البوليني هو المنطق الحاكم 
لعملية تمثيل استفسارات المستفيدين في معظم» إن لم يكن كل» حالات استرجاع 
المعلومات. إلا إذا كان المستفيد يحتاج إلى البحث عن مصطلح واحد فقط منفرد 
لا توجد له آي علاقات بمصطلحات آخرى» وهي عملية نادرة الحدوث. مع العلم 
أن عملية البحث البوليني تبدو أكثر تعقيدا من النموذج الموضح هناوسوف يتم 
مناقشتها بالتفصيل في الفصل التالي الذي يتناول نماذج استرجاع المعلومات. وفي 
حالة عدم استخدام الأقواس لتجميع المصطلحات وتحديد أولوياتها وعلاقاتها؛ فإن 
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النتائج سوف تتآثر وقد يسترجع النظام العديد من الوثائق غير المرتبطة باحتياجات 
المستفيد» وذلك على افتراض أنه يتم استبعاد كل الأقواس من العبارة البحثية 
الموضحة في الشكل 7.2 ويتم الاحتفاظ بكل المصطلحات كماهي موضحة في 


7.9 استخدام آليات استرجاع أأخرى 


توجد العديد من الأساليب الآخرى التي يمكن أن يستخدمها المستفيد لتمثيل 
الاستفسار بدقة ووضوح. فعلى سبيل المثال يجب على المستفيد أن يراعي الاعتبارات 


التالية عندمايتعامل مع أي مفهوم: 
- هل هناك حاجة إلى استخدام البحث بالحروف الحساسة في التفرقة بين 
المشترك اللفظي للمصطلح. 


- هل توجد حاجة إلى استخدام معاملات التقارب ۲إaعہ‏ اه طازس لتمثيل 
المصطاحات الوق سن كلست 
- هل يتم تحديد عملية البحث في حقول معينة مثل العنوان أو الكلمات 
المفتاحية. 
- هل يدعم النظام المستخدم في البحث عملية البحث الغامض (المجرد). 
- هل يمكن تحديد وزن نسبي للمصطلحات التي يتم البحث عنها لكل مفهوم. 
- هل يوجد آلية لدعم الصلاحية الراجعة في النظام أو توجد آليات يدوية لتوسيع 
الا ستفسبار. 
- هل يجب البحث في أكثر من قاعدة بيانات سواء بصورة مستقلة أو مجمعة. 
سبق وأشرنا إلى أنه ليست كل نظم استرجاع المعلومات تدعم كل الآليات التي 
تمت مناقشاتها فى هذا الجزء؛ لذلك فإن هذه القائمة من الأساليب وآليات الببحث» 
د قات م ا واختيار انا ءنطء أكثر منهاء قائمة إجراءات انا 0ل وص يتم 
استخدامها في عملية البحث. 
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وكماهو الحال في عملية تمثيل المعلومات فإن عملية تمثيل الاستفسارات 
أيضاً عملية صعبة معقدة. وعلى الرغم من تلخيص هذه الخطوات الخمس للتعبير 
عن الخطوات الرئيسة لتمثيل الاستفسارات. إلا أن الممارسة الفعلية من الممكن ألا 
تتضمن كل هذه الخطوات السابقة» وليس شرطاً أن يتم تطبيقها بنفس الترتيب ويتوقف 
الأمر على مدى خبرة المستفيد في التعامل مع نظم استرجاع المعلومات» حيث 
يتمكن المستفيد الخبير من دمج بعض الخطوات» بينما يحتاج المستفيد المبتدئ إلى 
تفاصيل أكثر» وقد لا يستطيع إجراء آي دمح للعمليات. 

وبصفة عامة فإن الخطوة الأولى في عملية تمثيل الاستفسار تتعامل مع إعراب 
/ llطmJ Request Parsing‏ أي تحليل الطلب إلى مفاهيم. وتتعامل الخطوتان الثانية 
والثالشة مع عملية ترجمة الاستفسار إلى مصطلحات» وتركز الخطوتان الرابعة 
والخامسة على تطبيق آليات مختلفة لإمكانيات نظام استرجاع المعلومات. ونظرا 
لآن کل مستفید وکل طالب بحث» وکل نظام استرجاع معلومات کل منهم له ملامحه 
وسماته الخاصة؛ فإن عملية تمثيل الاستفسارات لابد أن تعكس هذه الظاهرة من 
خلال مراعاة هله السمات المتترغة. 


7.10 صعوبات تمثيل الاستفسارات 

تعد غمابة هل الاستسارات؛ كما أوضحت الماقشة السابقة غملبة فكرية 
وليست عملية آلية؛ حيث إنها تتطلب تفكيراً وتحليلاً وإصدار أحكام. وتوجد العديد 
من العحربات التي اجه تلك العمل الفكرية شي: 

ا. تحليل المفاهيم 

يمثل تحليل المفاهيم الصعوبة الأولى في تمثيل الاستفسار؛ حيث يجب أن يكون 
لدى المستفيد المعرفة والخبرة والمهارة الكافية لتحديد والتعبير عن المفاهيم التي 


يتضمنها طلب البحث» وعدم الدقة في تحليل المفاهيم من أهم الظواهر السابية التي 
تحدث في عملية البحث واسترجاع المعلومات. 
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هه 
اء اللعة 


تعد صعوبة تمثيل اللغة هى الصعوبة الثانية فى تمثيل الاستفسار» حيث إن اللغة 
ال ا ع رر ی ا اا ا کو ا ا ال 
فهي صارمة اصطناعية» ومن الصعب صيانتها وتطويرها ومع ذلك يجب تمثيل 
مصطلحات الاستفسار بدقة باستخدام آي من اللختين أو كليهما معا. وقد تؤثر عملية 
التحويل وتؤدي إلى اختلافات في التمثيل» ما يؤثر في أداء نظام الاسترجاع. كما أن 
استخدام اللغة المضبوطة يزيد من الصعوبات من جانب المستفيد الذي يحتاج إلى 
وقت وجهد لكي يتأقلم ويتدرب عليهاء وعلى الجانب الآخر فإن استخدام اللغة 
الطبيعية أيضا له عيوبه التي تمت مناقشتها بالتفصيل في الفصل الرابع. 


.١‏ آلية الاسترجاع 


يعد تطبيق آلية الببحث والاسترجاع أحد الصعوبات التي قد تواجه عملية 
تمثيل الاستفسار» حيث إن كل نظام استر جاع معلومات له مواصفاته وآلية تطبيقه» 
بصرف النظر عن آلية الاسترجاع» حيث إن علامة (+) في بعض محركات بحث 
الإأنترنت تستخدم بدلا من المعامل البوليني ۸١2‏ وتستخدم في بعض النظم 
الأخرى لوزن المصطلحات» بمعني أنها تستخدم كعلامة للدلالة على أهمية 
المصطلح» من ثم فإن تمكن المستفيد من تلك الآليات يحتاج أيضا إلى وقت 
وتدريب وممارسة. 


هذه الصعوبات قد تؤدي إلى مشكلات في تمثيل الاستفسارات» ما يؤثر في 
تحقيق المضاهاة ما بين تمشبل المغلومات وتمثبل الاستفسارات. والفخلب على 
تلك المشكلات يمكن من الناحية العملية من خلال تدريب المستفيد وتأهيله إلى 
جانب العمل على الجانب الآخر المتمثل في تطوير البحوث في مجال التمثيل 
الآلي للاستفسارات. ۰ ۰ 
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7.11 التمثيل الآلي للاستفسارات 


Automatic Query Representation 


يعد هذا التوجه من المتطلبات التي تسعى النظم إلى تحقيقهاء وهذه الطريقة 
تشبه غيرها من الطرق الآلية مثل التكشيف الآلي وغيرها من الطرق الآلية لمعالجة 
النصوص التي تعتمد على آليات مثل تردد المصطلحات» التقارب» وموقع المصطلح. 
وفي بعض الأحيان يتم تطبيتق خوارزميات قائمة على نظرية الاحتمالات أو النماذج 
اللغوية أو آليات الذكاء الاصطناعي. وعلى عكس التكشيف الآلي الذي يشتمل 
على أنشطة آلية وفكرية؛ فإن تمثيل الاستفسارات يشتمل على مكون فكري فقط. 
ونظراً لأن الحاسبات مازالت لا تستطيع التفكير مثل الإنسان» فإنه مازال من الصعب 
التنبؤ أو تخيل الصعوبات التي تواجه العملية الفكرية المتعلقة بتمثيل الاستفسارات. 
وقد حظي هذا التوجه باهتمام كبير خلال المراحل الأولى لميكنة نظم استرجاع 
المعلومات» كما حظي باهتمام في مؤتمر استرجاع النصو ص 1۸۴8٣‏ . وقد شارت 
المرحلة الأولى من مؤتمر في نسخته 1,2 1۸۴8٩‏ إلى أن الاستفسارات المهيكلة آليا 
تعمل بنفس كفاءة وقدرة اللاستفسارات المهيكلة يدويا في استرجاع المعلومات» 
وفي بعض الأحيان تؤدي بكفاءة أعلى من الاستفسارات اليدوية. وقد أشار سبارك 
جونز [01٥,1995(‏ )٣هم؟)‏ إلى أنه لا توجد أي ميزة إضافية للاستفسارات اليدوية 
وقد جرت بعض الدراسات في النسخة 3,4 1۸8٤‏ للمقارنة بين الاستفسارات 
القصيرة sعذاءاQ‏ $10۲۲ وكان التوجه فى النسخة 5,6 R٤٣‏ هو المقارنة بين بناء 
الاستفسارات الطويلة بالطرق اليدوية والآلية واختبار كفاءة النظم عند التعامل مع كل 
منهما والمقارنة ينما .(Spark, Jones,2000)‏ 

وعلى الرغم من أن دراسات 1۸۴8٣‏ ليست شاملة لكل عناصر الموضوع؛ إلا أنها 
أثارت قضية التوجه الآلى نحو بناء الاستفسارات والموقف الحالى للدراسات فى 
هذاالاتجاه ويحتاج هذا اوو الى فسات ما ل او ارقا 
لتمثيل الاستفسارات. 


TREC - Text Retrieval Conference (1) 
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أساليب الاسترجاع 


4 مقدمة 
توجد ثلاثة أساليب أساسية لاسترجاع المعلومات هي: البحث» التصفح» 
والنموذج الهجين من البحث والتصفح. ويعتمد اختيار الأسلوب الملائم لاسترجاع 
المعلومات على عدة عوامل» لعل أبرزها وأهمهانوع وطبيعة المعلومات التي يحتاج 
إليها مستفيد بعينه . ويعالج هذا الفصل الأساليب الثلاثة ة المستخدمة في استرجاع 
المعلومات من حيث الملامح والتطبيقات. 
قام كول )K011,2000(‏ بتشريح عملية استرجاع المعلومات» حيث أشار إلى أن 
N O N‏ 
برة تمثل الوثيقة أو الوثائق التي يبحث عنها المستفيد» وكومة القش هي مجموعة 
. تى المخزنة بقواعد بيانات نظام استرجاع المعلومات. 
وقد وضع كول قائمة بالاحتمالات المختلفة لاسترجاع المعلومات من أي نظام 
وهي کالتالي: 
1. البحث عن وثيقة معينة في نظام محدد مثل البحث عن إبرة معينة في كومة 
قش وأحدة. 
2. البحث عن وثيقة محددة في نظام غير معروف أو محدد مثل الببحث عن إبرة 
معينة في كومة غير معروفة من القش. 
3. البحث عن وثيقة غير معروفة (محددة) ضمن نظام غير معروف مثل البحث 
عن إبرة غير معروفة في كومة قش غير معروفة. 
4. أي وثيقة في نظام محدد مثل البحث عن أي إبرة في كومة محددة من القش. 
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5. أفضل وثيقة في نظام محدد - أقوى إبرة في كومة قش محددة. 

6> معظم الوثائق الجيدة في نظام محدد - معظم الإبر القوية في كومة قش 
محددة. 

7. كل الوثائق الصالحة المتاحة في النظام - كل الإبر القوية في كومة القش. 

8 التأكيد على عدم وجود أي وثيقة بالنظام - التأكيد على عدم وجود أي إبرة 


بكومة القش. 

8 آ کی دا ا الا یا چ اا ای کے الا 
ي شي ء يشبه الوثيقة بالنظام (وني جرئي ي شيءَ يشبه ال بر 
بكومة القش. 


0. التنويه بظهور أي وثيقة جديدة بالنظام - التنويه بظهور أي إبرة بكومة القش. 

1. أين توجد أنظمة استرجاع المعلومات - أين توجد آكوام القش. 

2. البحث عن الوثائق أو أي منهما - الإبر وأكوام القش أو أي منهما. 

وتعد القاتة الساقة مجر عة من الاحجمالات الممكة غير الحصرية لمث فن 
الوثائق في أنظمة استرجاع المعلومات» والذي تم تشبيهه بالببحث عن إبرة في كومة 
قش. ومن الواضح أن البحث هو الأسلوب الملائم لحالات معينة مثل الحالة رقم 
(1) وأن التصفح يبدو آنه الأسلوب الملائم لحالات أخرى مثل الحالة رقم (12) وأن 
بعض الحالات في تلك القائمة تحتاج إلى التصفح والبحث معامثل الحالة رقم (5). 


8.1 الاسترجاع من خلال البحث 
Retrieval by searching‏ 
يعد الببحث أحد آهم أساليب استرجاع المعلومات والتي يتم معالجتهافي 
الدراسات المختلفة لاسترجاع المعلومات باستخدام مصطلحات متنوعة مثل: 
_ الببحث بaتواعد‏ llئlaنlٽ Databases Searching‏ 
_ الببحث على |لخط lأlınشر Online Searching‏ 
_ الببحث في الفهارس المتاحة على الخط lınllشر OPAC Searching‏ 
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وغيرها من المصطلحات التي تم استخدامها للاإشارة إلى نفس المفهوم» حيث إنه 
بمجرد أن تتم عملية تمثيل الاستفسار يصبح المستفيد جاهزا لإجراء البحث لأغراض 
استرجاع المعلومات من النظام. 


8.1.1 ملامح البحث 


Characteristics of searching 


تسعى عملية الببحث عن المعلومات نحو الوصول إلى الوثائق التي تضاهي 
البصطلحات الراردة باستفسان المسيده وذلك من خلال ا تقنیات 
الاسترجاع المختلفة التي تم شرحها في الفصل الخامس. ومن الممكن أن تتم 
عمليات البحث باستخدام نقاط إتاحة موضوعية Subject Acءعوs ۴011٤‏ أو نقاط 
إتاحة غير موضوعية .N0« ءuطزعءt Aءءعوك ۴01١٤١‏ وتشتمل نقاط الإإأتاحة الموضوعية 
على الواصفات كإهامذءوه التي يتم اشتقاقها من المكانز» أرقام التصنيف التي يتم 
استخراجها من خطط التصنيف» رؤوس الموضوعات التي تشتق من قوائم رؤوس 
الموضوعات وغيرها من المحددات الموضوعية الحرة مغل الكلمات المفتاحية» 
والعناوين والمستخلصات» أو النصوص نفسها بقاعدة بيانات النصوص الكاملة» 
وتشتمل المصطلحات غير الموضوعية على لغة الوثيقة» سنة النشر» نوع الوثيقة» 
ار قام تحديد الهوية مشل"“ (00 ,×؟1SS ..)1SSN,‏ إلخ. 

وعد عملية البحث نموذجا فعالاً لاسترجاع المعلومات في حالة الاستفسارات 
المحدةة الى يدرك بها الممتفيد الحاجة إلى الوصول إلى كل الوثائق الى نشرما 
اجب مقر ملا ول عة اعات فان عماية الكت بان الزتف تاريخ 
النشر سوف تؤدي استرجاع النتائج المتوقعة من النظام. ما إذا كان المستفيد بحاجة 
إلى معرفة كل من أسهم في تطوير مجال استرجاع المعلومات» فإن البحث وحده قد 
لا يكون وسيلة ملائمة لتلبية احتياجاته ولا بد أن يقوم أيضا بالتصفح. 
ISBN - Intenrational Standard Book Number (1)‏ 


ISSN - International Standard Serial Number 
DOI - Digital Object Identifier 
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يعتمد أسلوب البحث عن المعلومات على استخدام تقنيات البحث» مثلاً الاعتماد 
على المنطق البوليني ءأعها ١4ء8001‏ والذي يتيح للمستفيد إمكانية دمج أكثر من 
وجه واحد لعملية الببحث باستفسار المستفيد عند الحاجة لذلك. وباستفناء أنظمة 
استرجاع المعلومات على الإنترنت» فإن معظم نظم استرجاع المعلومات تسمح 
للمستفيد بإجراء تعديلات على الاستفسار من خلال تحديد البحث في نطاق معين 
مثل حقول البحث. وتعد عملية البحث عن المعلومات عملية مستقيمة وممنهجة ولا 
تضع آي أعباء معرفية ل103 1۷8ازمعه٤‏ على المستفيد. 


وينظر إلى عملية الببحث عن المعلومات على آنها نشاط له بناء محدد وتقل فيه 
فرص المفاجأة واامنل١٥إه$‏ (بمعنى اكتشاف شيء مفيد» ولكنه غير متوقع أثناء 
عملية الببحث)» حيث إن النظام يعرض فقط الوثائق التي تضاهي استفسار المستفيد» 
إضافة إلى أن المستفيد بحاجة إلى التدريب لتعلم مهارات البحث» حيث إنها مهارات 
مكتسبة تحتاج إلى تعلم وتطور مع الممارسة في نفس الوقت؛ لكي يتمكن المستفيد 
منها. ويمكن القول إن التعلم والممارسة عمليات مكلفة للغاية مع النظم مدفوعة 
الكلفة في مقابل انخفاض الكلفة في النظم المجانية. 


8.1.2 أنواع البحث 
Types of searching‏ 

يمكن تصنيف عملية البحث إلى عدة أنواع وفقاً لأهداف البحث كالتالي: 

النوع الأول: الببحث عن وثيقة محددة: فعندما يكون المستفيد بحاجة إلى وثيقة 
معينة فإن عملية الببحث يطلق عليها الببحث عن مادö‏ جحد Known Item search‏ . 
وتتم عملية الببحث عن وثيقة محددة باستخدام محددات بحث مثل المؤلف والعنوان 
وغيرها من الحقول البحثية. ويعد البحث عن وثيقة محددة أبرز مثال لنموذج كول 
(Koll, 2000)‏ البحث عن إبرة معينة ف كومة قش محددة. 

النوع الثاني: الببحث عن موضوع معین 1ءءهمء م٥٣‏ والذي يحتاج إليه 
المستفيد لأداء ببحث في الإنتاج الفكري المتخصص بغخرض تحديد ما إذا كان 
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هناك باحثون آخرون قاموا بإجراء دراسات في هذا الموضوع» أو التعرف إلى كل 
الدراسات في موضوع معين. وفي الغالب لا يتفاجا المستفيدون إذالم يجدوا بحثا 
ذا علاقة بالموضوع الذي يبحثون فيه» كما أنهم عادة مايكونون سعداء بمعرفة آنه 
لا توجد أي دراسة نشرت في هذا الموضوع حتى الآن» لأن ذلك يعد مؤشرا قويا 
على أصالة أبحاثهم. 

وقد أطلق العديد من الباحثين على هذا النوع مصطلح البحث السلبي 1۷e)ةعN‏ 
Search‏ مثشل ibb0,1988(‏ & سStiel)»‏ او کما أطلق عليه کول (2000 ,ااه)) 
التأكيد بعدم وجود آي وثيقة في الموضوع أو أي إبرة في كومة القش. وتجدر الإشارة 
إلى أن هذا النمط من البحث هو النمط الذي تستخدمه مكاتب براءات الاختراع عند 
فحص آي براءة جديدة للتأكد من آنه لا توجد أي براءة تم منحها في العالم في نفس 
الموضوع. ويجب أن يكون البحث السلبي عميقاً وشاملا بحيث يتأكد المستفيد أنه 
لاتوجد أي وثيقة تعالج نفس الموضوع الذي يسعى إلى البحث فيه. 


النوع الثالث: هو نمط البحث بأغراض الإحاطة الجارية والبث الانتقائي 
للnعلوnمlٽ Selective Dissemination of Information‏ وقد تم توضيحه بالفصل 
الأول» حيث أوضح لوهان (1961,«ط٠ا)‏ آليات خدمات الإحاطة الجارية والإبث 
الانتقائى للمعلومات» والتى انتشرت بصورة كبيرة فى مجالات التجارة وإداراة 
الإعمال والمجتمعات العلمية. ویتم في هله النظم وضع استفسار جاهز ثاببت 
بالنظام» ثم يتم إجراء البحث بطريقة دورية» وعادة ماتتم تلك العملية بطريقة يقة آلية» 
وقد مثلها كول في القائمة بالببحث عن أي وثيقة جديدة تضاف إلى كوم القش. 


O PG 
E 
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ويوجد العديد من الآليات وتقنيات البحث التي تستخدم لتحديد مدى شمول 
أو دقة الببحث» والتي يتم قياسها بمعدلات الاستدعاء والتحقيق. وقد أوضح كول 
)K011,2000(‏ آنه توجد مجموعة من نماذج الببحث من وجهة نظر الاستدعاء 
والتحقيق فى القائمة التى حددهاوتشمل: 

1 البحث عن أي وثيقة في النظام بمعنى أن الاستدعاء منخفض والتحقيق 

مرتفع. 

1. البحث عن أفضل وثيقة واحدة بالنظام بمعنى ارتفاع معدل التحقيق بالبحث. 

1. البحث عن معظم الوثائق الصالحة» ما يشير إلى ارتفاع معدل الاستدعاء. 

۷. كل الوثائق الصالحة للموضوع بالنظام تحقيق أعلى قيمة استدعاء ٤٥۲۴م‏ 

.Recall 

۷. ومن الاحتمالات الأخرى في هذا النطاق الوصول إلى معدل تحقيق 

بالمقارنة بغيره من أنواع الببحث» فإن البحث الموضوعي أو المفاهيمي يعد أكثر 
أنواع البحث تعقيداًء نظراً لأنه يحتاج إلى التقييم من جانب المستفيد باستخدام 
الى تعد الا ساس اقاس ادلات الا سغدغاء وال 

النوع الخامس: الببحث بالفقرات ١١2۲ء5‏ ععدءیه۴ تمت الإإشارة إليه یاقا فی 
الفصل الأول» حيث يركز هذاالنوع من أنواع البحث على استرجاع فقرات من 
الوثائق تضاهي استفسار المستفيد» وتقوم بعرض تلك الفقرات. ويعتمد هذا النمط 
على وظائف الفرز والترتیب ؟صهناءصں؟ عمذإ۴!)6 بصفة أساسية. وعلى الرغم من 
ظهور هذا النمط خلال السنوات الأخيرة» إلا آنه أظهر إمكانيات كبيرة في دعم 
مستويات الدقة والتحقيق في النتائج المسترجعة. 
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لقدتم في هذاالجزء شرح وتفصيل 5 أنواع من البحث هي: البحث بمادة معروفة» 
البحث السلبي» البث الإنتقائي للمعلومات» البحث المركب (نقاط بحث موضوعية وغير 
رقو ع رات بالل ر راهان إلى ا جد هات ارق لات 
الببحث مثل ما ورد عن كل من )1999 )Bae2-ates and Ribeiro- Neto‏ حيث قاما 
بتصنيف البحث إلى فئتين أساسيتين هما: عشوائى ۸-10٥‏ وتصفية ۴1۲۲1٣2‏ وأيا كان 
أسلوب تصنيف عمليات البحث» فإن الهدف النهائي هو أن بستطيع المستفيد أن يحدد 
الأسلوب الملائم للبحث وبناء استراتيجية بحث سليمة تتوافق وتلبي احتبياجاته. 


8.1.3 استراتيجيات البحث 


Search Strategies 


عرف اسع ابات الك اغا ريل امار ار الطب اى 
المعلومات إلى طريقة لإجراء البحث بنظم استرجاع المعلومات. وقد صنف كل من 
فینشل وهوجان (1981 ,047 & e1ط۴enic)‏ في العصر الذهبي للببحث على الخط 
المباشر,» استراتيجيات الببحث تحت أربع فقات رئيسة هي كالتالي: 


8.1.3.1 استراتيجية أعمدة البذاء 
Building Block Approach‏ 


تبداً استراتيجية أعمدة البناء باللبحث عن مفهوم واحد اConcep‏ eاSing.‏ ومن 
نماذج استراتيجية المفهوم الواحد ماتم شرحه في عملية البحث عن الاستفسار 
الخاص بتصفية النزاعات في الشرق الأوسط في جدول رقم (7.2) وفقألماتم 
شرحه في عملية تحليل المفاهيم. ووفقا لتلك الاستراتيجية يتم البحث عن كل 
مفهوم على حدة بصورة مستقلة» وبعد البحث عن المفاهيم المستقلة يتم الدمج بين 
تلك المفاهيم باستخدام معاملات الربط البوليني. 

وتحتم د تلك الاسترائيجة على تخليل عملبات البحث المعفذة إلى غملبات اثر 
بساطة» ما يتيح للمستفيدين إمكانية تصحيح أو ضبط استراتيجية الببحث في الوقت 
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المناسب آثناء إجراء عملية الببحث. من ثم لا يحتاج المستفيد إلى إعادة إجراء 
البحث بالكامل بسبب وجود خطا في حرف أو هجاء كلمة في عبارة البحث. بالتالي 
فإن نموذج أعمدة البناء يقلل من حجم الضغط الذي يوضع على المستفيد ويتيح 
له فرصة أكبر للتركيز على التفاعل مع نظام استرجاع المعلومات. ولهذا السبب 
فإن هذه الاستراتيجية تعد وسيلة مهمة للمستفيدين بصفة عامة لاكتشاف المفاهيم 
واكتشاف النتائج المرتبطة بهاء كما أنها تعد وسيلة مهمة لتعلم كيفية التعامل مع نظم 
استرجاع المعلومات خاصة للمستفيدين المبتدئين. 


8.1.3.2 استراتيجية كرة الثلح 


SnowBall Strategies 


تعرف استراتيجية كرة الثلج أيضا باستراتيجية استخدام الاستشهادات في حصاد اللؤلؤة 
)F۴eniche1 & Hogan, 1981)‏ حيث تساعد تلك الاستراتيجية على زيادة أعداد المصادر 
المسترجعة كماهو الحال في نمو كرات الثلج في وقت نزول الثلج. ومن الواضح أن 
هذا النموذج يسعى إلى زيادة معدلات الاستدعاء حيث إنه وفقأ لهذا الأسلوب يقوم 
المستفيد بإجراء بحث مبدئي وفقا للنتائج المسترجعة ثم يقوم بتعديل الاستفسار. وتعتمد 
عملية التعديل على مراجعة وفحص النتائج المسترجعة واختيار المصطلحات الملائمة من 
تلك النتائج من خلال كلمات العناوين والواصفات والكلمات المفتاحية الواردة في النتائج 
المسترجعة» ثم إعادة استخدامها وتوظيفها في إعداد استراتيجية أكثر إحكاما. ومن الممكن 
أن تتم تلك العملية أكثر مرة» بحيث يتم في كل مرة مراجعة المصطلحات المستخدمة 
وتعديل الاستراتيجية حتى يصل الباحث إلى أعلى مستويات الرضاعن النتائج المسترجعة. 


فى سيل الال اقام مته باليحت عن مرضن الكشب اللكررية 
Eiectronic Books‏ وقام النظام باسترجاع وثائق عن 112 ۸ء طمSt6‏ ووثائق تستخدم 
مصطلح ebooks‏ يقوم المستفيد باستخدام استراتيجية كرة الثلج بتعديل استراتيجية 
الببحث ووضع تلك المصطلحات بالاستراتيجية الجديدة» بغرض توسيع نطاق 
الببحث والحصول على كل النتائج الممكنة في هذا الموضوع. فالمتخصص في 
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مجال الكتب الإلكترونية يعلم أن 2« ۲٥طمع)؟‏ آول مؤلف شهير يقوم بنشر كتابه 
في صورة إلكترونية» كما يعلم أيضاً أن مصطلحات ٤۲18‏ ,)00ء هي اختصار 
للمصطلح الكامل هط ءنصهء)ءعاء لذلك يجب تضمينها في عملية البحث. وتعتمد 
استراتيجية كرة الثلج في جوهرها على استخدام إمكانيات البحث المتقدم» وتسعى 
ال توسیع نطاق الاستفسار 101ئ1م×٤ Quy‏ اللذين تمت مناقشتهما سابقا. وقد 
أطلق كورفهج (1997 ,ع٣۲۴هK)‏ على هذه الممارسة معالجة الاستشهادات. ويمكن 
القول إن استراتيجية كرة الثلج تعد استراتيجية مفيدة في حالة حاجة المستفيد الذي 
يحتاج إلى دعم لتحديد المصطلحات المرتبطة بالموضوع الذي يبحث عنه بغخرض 
توسيع نطاق البحث. 


8.1.3.3 استراتيجة التجزيء المتوالى 
The Successive Fraction Approach‏ 


تعد استراتيجية التجزيء المتوالي النموذج العكسي لاستراتيجية كرة الثلج» 
حيث تبدأ عملية البحث وفقاً لتلك الاستراتيجية باستخدام المفاهيم العريضة 8٥۵۵‏ 
1 ثم يتم تضييق نطاق البحث بطريقة متتالية وفقاً لما سيتم اكتشافه من نتائج» 
عند صياغة عبارة الببحث. فكما سبقت الإشارة إلى معاملات الربط البوليني فإن 
المعامل NOT‏ یستخدم لاستبعاد مص طلحات من عبارة الببحث» کھتا پستخدم 
المعامل 4۸2 في تحديد نطاق البحث بالربط بين منطقة التماس أو التداخل بين 
المفاهيم. ويستخدم المعامل ١‏ أيضا في تضييق نطاق البحث من خلال تحديد 
موضع المصطلحات في العبارة البحثية» والتي يجب أن ترد معا وهس الیب 
التحديد أو تضييق نطاق البحث استخدام المحددات غير الموضوعية ا>eزSub ١0١‏ 
tributes‏ مثل لغة او نوع أو سنة نشر الوثيقة. ويعد التحديد باستخدام المحددات 
غير الموضوعية أكثر سهولة من استخدام المعاملات التي تربط بين المفاهيم في 
التحديد. نفترض أن باحثا يريد البحث عن موضوع تصفية الوب ]۴ ۷6b‏ 
کموضوع جدلی ٤٥٣٤۲٥۷٥15۷‏ ولیس کموضوع تكنولو جى وبدأً الببحث بالمصطلح 
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تصفية ۴1۲۲12 بالطبع فإن النتائج سوف تتضمن كل شيء له علاقة بالتصفية أو 
الفلترة يشتمل عليه نظام استرجاع المعلومات. في هذه الحالة لابد من استخدام 
استراتيجية التجزيء المتوالي لكي يتم الوصول إلى الهدف المحدد من جانب 
المستفيد. فعلى سبيل المثال في هذه الحالة يتم إضافة المصطلح الويب 0ء لعبارة 
الببحث باستخدام المعامل ۸١2‏ لتصبح عبارة البح :Filtering AND Web‏ كlu‏ 
يمكن إضافة المصطلح كإء 0٥١۲۲٥۷‏ بنفس الطريقة بعد إجراء البحث بالعبارة السابقة 
والنظر في حجم التتائج المسترجعة ومدى تطابقها مع احتياجات المستفيدين. على 
أن يتم استخدام المعامل N01‏ في تلك الاستراتيجية لتصبح كما يلي: ع ذ٣ع‏ )۴1 
AND Web Not Controversy‏ 


بالتالي يتم استبعاد آي نتائج ذات علاقة بمصطلح تکنو لو جیا المعلو مات 1۸۴0۲۳۵٤10٩‏ 
yع0اtechno.‏ ومن الممكن تحديد عملية الببحث بصورة أكثر تفصيلا للوثائق التي 
نشرت بين عامي 1990 - 2000 من خلال استخدام المعامل ۸۸0 لتصبح استراتيجية 
البحث (جدول 8.1) تقسيم المفاهيم والربط بينها وفقا لاستراتيجية التجزيء المتوالي: 


Search Field Operator Search Term الصطلح البحثي‎ 
key words Filtering الفلترة‎ 
key words AND Web الويب‎ 

Publishing Year NOT Controversy الجدل‎ 
1990- 2000 


فكما أوضحنا يسعى نموذج استراتيجية التجزيء المتوالي إلى تضييق نطاق 
الببحث خطوة بخطوة باستخدام إمكانيات التحديد والتضييق المتاحة بنظم 
استرجاع المعلومات. ويتطلب هذا الأسلوب أن يكون المستفيد على دراية ون يتم 
تدريبه وتأهيله على آليات وإمكانيات تضييق نطاق البحث المتاحة بنظم استرجاع 
المعلومات» إلى جانب تدريبه على التفاعل مع النظام أثناء عملية البحث. وتتطلب 
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النتائج المسترجعة في كل دفعة من دفعات البحث لتحديد مدى مطابقاتها للمفهوم 
الذي يبحث عنه» أم أنه توجد حاجة إلى تضييق أو توسيع المفهوم. وتجدر الإشارة 
إلى أن الكُلفة كانت عاملاً مؤثراً في استخدام ذلك النوع من عمليات البحث في 
النظم المتاحة على الخط المباشر ١۳ءاءرإ؟‏ ع«زام0 خلال السبعينات والثمانينات من 
القرن الماضي. ونظراً لحاجة المستفيد إلى التعامل مع النظام لفترات طويلة كانت 
عملية الببحث في ذلك الوقت تتم عبر خحطوط الهاتف الدولية» ما كان يمشل أكبر 
عناصر الكلفة في تلك النظم» إلا أن ظهور الإنترنت وانتشار استخدامه في إتاحة 
عمليات البحث بقواعد البيانات» قلل من تلك التكاليف بصورة كبيرة» حتى أصبح 
وقت عملية الاتصال عنصراً غير مؤثر في الكّلفة على الإطلاق. ومازالت كل نظم 
استرجاع المعلومات تعتمد بصورة كبيرة على إمكانيات تحديد نطاق البحث لتيسير 
اس اتس لرن اکر الى 


8.1.3.4 استراتيجية الوجه الأكثر تحديداً 
The most Specific Facet Strategy‏ 


تستخدم ا ال جا کے ی اه أولى مع الاحتياجات البحثية 
متعددة الأوجه (1981 8084١,‏ & 1عطءنصء۴) وتفترض تلك الاستراتيجية أن المستفيد 
يعرف جيدأ كل أوجه الموضوع الذي يبحث عنه ويستطيع تجزئته إلى مجموعة 
مفاهيم تتضمنها العبارة البحثية» ثم يقوم بتحديد أكثر تلك المفاهيم أهمية وتحديدا. 
وتعد تلك الاستراتيجية من أكثر الاستراتيجات كفاءة» حيث إنها تستغرق أقل قدر 
من الوقت» نظرا لأن المستفيد يبدأ عملية البحث بأكثر المفاهيم تحديداً. ويرجع 
ذلك إلى أن نتائج الببحث عن أكثر المصطلحات تحديدا تساعد المستفيد في التعرف 
إلى الحجم المتوقع للنتائج في تلك الاستراتيجية» فقد يكون من غير المنطقي 
الاستمرار في البحث بنفس الاستراتيجية إذا كان البحث بأكثر المصطلحات تحديدا 
يسترجع عدداً محدوداً من النتائج أو لا يسترجع أي نتائج على الإطلاق» حيث إن 
ذلك سوف يؤدي إلى استراتيجية صفرية ( S۲6۷‏ 26۲0) آي تسترجع صفرامن 
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النتائج) أو استراتيجة الندرة Strategy of Few‏ التي تسترجع عدداً دود ن النتائج 
لكى تفى باحتياجات المستفيد» وذلك فى مقابل استراتيجية الوفرة» إععاه)ء ما1 
cof Abundance‏ فعلی سبیل المثال الموضورع التالي يشتمل على ثلاثة وجه رئيسة: 


Treatment of prognosis of neuroendocrine trumors 


من ثم يكون الموضوع جرعات علاج ورام الخدد الصم عصبية بالرئة» وهو كما 
يتضح موضوع معقد ومن ثم نلاحظ أن هذا الموضوع ينقسم إلى ثلاثة وجه رئيسة 
هی کالتالی: 

الوجه الأول: جر عات îleج Treatment and prognosis‏ 

الوجه الثانى : أو رام الغدد الصم neuroendocrine t(ruMOFS mz‏ 


الو جه الثالث: الرئة 2ن1 


ومن بين هذه الأوجه الثلاثة يتضح أن موضوع أورام الغدد الصم عصبية هو الموضوع 
الأكثر أهمية والأكثر تحديداء ويجب أن يتم البحث به أولاً وفقاً لهذه الاستراتيجية. فإذا 
استرجع البحث بالمصطلح neuroendocrine trumors‏ وثہقتین فقط علی سبیل المثالء 
فإنه من المحتمل آلا يسترجع البحث بعد إضافة الأوجه الأخرى أي وثائق أخرى» ما 
يؤدي إلى استراتيجية صفرية» حيث إن البحث بالمصطلحات الثلاثة باستخدام معامل 
الربط 42 الملائم لتلك الأوجه لن يسترجع بي حال من الأحوال أكثر من وثيقتين» 
إلا آنه من المحتمل أن يسترجع عدداً أقل من الوثائق؛ واحدأً أو صفر. وعلى الرغم من 
كفاءة هذا النوع من أنواع استراتيجيات البحث» إلا أنه نموذج في غاية التعقيد» نظرا 
لأنه لايمكن إنكار مدى تعقيد عملية التحليل المفاهيمي التي يتضمنها وخاصة التركيز 
على أكثر المفاهيم تحديداء ما يجعله نموذجاً صعباً بالنسبة للمستفيد المبتدئ والبسيط؛ 
حيث إن عملية تعيين أكثر المفاهيم تحديدا من الاحتياجات متعددة المفاهيم تعد عملية 
معقدة إلى حدما. لذلك فإننا لا نوصي باستخدام هذا النموذج من جانب المبتدئين في 
عمليات البحث واسترجاع المعلومات. 
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ومن الممكن عمل امتداد لاستراتيجة المفهوم الأكثر تحديدا بالاعتماد على 
استراتيجية الوجه الثاني الأكثر تحديداً khe second most specific face‏ حیث یتم اختیار 
ثاني أكثر مفهوم تحديدأ في حالة تعذر التعامل مع المفهوم الأول ويتم استخدامه في 
إجراء البحث. ومع ذلك فإن هذاالنوع من الاستراتيجيات نادرأ مايتم استخدامه 
وهو جان (1981 H802”,‏ & 1عط۴enic)‏ بو صف هذه الاستراتيجية باستخدام مصطلح 
اتجاه الندرة أو لاً est 4٤ approach‏ عطt‏ فى إشارة إلى أن الوجه الأكثر تخدندا 
عادة مايسترجع اقل عدد من النتائج. 


8.1.4 نحو الاستراتيجية الأكثر ملاءمة وسرعة 


سبقت الإشارة إلى أن كل استراتيجيات الببحث تم بناؤها وتطويرهافي وقت 
انتشار ونمو النظم المتاحة على الخط المباشر» وأن هذه الاستراتيجيات لم تعد 
ملائمة للبيئة الرقمية الجديدة. فقد شهدت بيئة استرجاع المعلومات تغييرات كبيرة 
مع ظهور نظم استرجاع الإنترنت» كما أن المستفيدين أنفسهم حدثت لهم تغييرات 
كبيرة» حيث اختفى دور وسيط المعلومات الذي كان يقوم بالبحث نيابة عن المستفيد 
النهائي» وأصبح المستفيد يتفاعل بصورة مباشرة مع آنظمة استرجاع المعلومات. 
وعلى الرغم من أن استراتيجيات مثل أعمدة البناء واستراتيجية كرة الثلج لاتزال 
من أكثر الاستراتيجيات تفضيلاً من جانب قطاع كبير من المستفيدين» إلا أن القطاع 
الآكبر من المستفيدين يفضل البحث بكلمة واحدة أو مجموعة كلمات دون استخدام 
أي محددات أو علاقات وروابط بولينية فيما بينها وهو النموذج الذي تعتمد عليه 
محركات بحث الإنترنت» التي تستخدم نموذج الببحث السريع من خلال صندوق 
يڪ Jansen, Spink & Saracenvic, 2000; Siegfried, Bates& Wilde,) bw‏ 
3 وفي المقابل نجد آنه نادرأ ما يستخدم المستفيدون من نظم استرجاع 
المعلومات اليوم استراتيجية التجزيء المتوالي أو استراتيجية الوجه الأكثر تحديدا 
أولاً. ومن ناحية أخرى نجد أن بعض أنظمة استرجاع المعلومات تستخدم بعض 
الإمكانيات الأساسية في البحث مثل نوع لغة (مضبوطة أم لخة طبيعية) في الأنظمة 
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التي تستطيع توفير آليات بحث متنوعة» معاملات الربط البوليني وتدمجها في واجهات 
استرجاع المعلومات الحديثة» حيث يمكن للمستفيد أن يحدد خيارته في البحث من 
خلال نماذج الببحث sطإە۴ Search‏ أو الأزرار ائnجjqة‏ مÎaqw Predefind Buttons‏ 
أو القوائم المنسدلة Nes‏ س0 صا( دون الحاجة إلى كتابة تلك الخيارات في 
صندوق البحث. 


وعلى الرغم من تنوع آليات البحث وتعددها وابتكار العديد من الأساليب التي 
تمن المستفيذ من الوضصول والاكتشاف »إل أن آليات وإمكائبات البح المتنرغة تقف 
قاصرة عن تلبية العديد من الطلبات المعرفية للمستفيدين وفقاً لإمكانياتهم وقدراتهم 
البحثية والتي يجب أن يراعيها أي نظام استرجاع معلومات» ما اضطر الباحثين في 
مجالات استرجاع المعلومات إلى البحث عن آليات توفر بدائل للمستفيدين في 
الوصول إلى مصادر المعلومات. وتمثلت تلك الآليات في الاسترجاع بالتصفح 
والذي سيتم عرضه في الجزء التالي. 


8.2 الاسترجاع بالتصفح 


Retrieval By Browsing 


يعد التصفح أحد هم أساليب استرجاع المعلومات» على الرغم من آنه لم يلق 
الاهتمام الكافي من جانب المهتمين باسترجاع المعلومات» مقارنة بالبحث حتى الثمانينات 
والتسعينات من القرن الماضى» والتى شهدت نمو وانتشار أنظمة الأقراص المدمجة» 
والهارس الها عة على الط الماش إلى جانبب عة الروانطا اة قي الك 
العنكبوتية العالمية. وقد أدى انتشار تلك التقنيات إلى اكتساب التصفح شهرة واسعة 
وبسرعة كبيرة» حيث أصبح يمثل جدوى اقتصادية في عمليات استرجاع المعلومات. 
في الوقت الذي تغيرت فيه أساليب الاتصال من النظم المتاحة على الخط المباشر التي 
كانت عملية الاتصال التليفوني فيها مكلفة جدا إلى نظم استرجاع المعلومات من خلال 
قواعد البيانات المتاحة على الإنترنت» من ثم أصبحت كل نظم استرجاع المعلومات 
تتيح التصفح كأحد وسائل الوصول التي تيسر للمستفيدين القيام بهذا الدور. 
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8.2.1 ما هو التصفح 
التصفح هو عملية اختيار المعلومات الملائمة لاحتياجات المستفيدين من خلال 
قوائم عامة باستخدام آليات القراءة بالقشط والمسح وغيرها من الأنشطة المشابهة. 
على مايلي: 
ما هي الفئة التي ينتمي إليها هذا الموضوع؟ ومن الممكن في هذاالإطار 
أن يتم تطوير آلية دولية لبناء شبكة اجتماعية لتعريف الكيانات ووضعها في 
فغات تحدد مجالها ومداها المعرفى. 


3. معلومات عامة عن الموضوع و/ آو الموضوعات التي يغطيها نظام استرجاع 
المعلومات. 

4. مساعدة المستفيد على الاختيار من بين مزيج من المواد الصالحة وغير الصالحة. 

5. اكتشاف والتعرف إلى المواد الجديدة التي يتم إضافتها إلى قواعد البيانات. 

وقدتناول مارشونيني ووايت (2007 )Marchionini & Whi†e,‏ مو ضوع التصفح 
بصورة أكثر تفصياة واستعرض أهميشه والحاجة إلبه» إلى جانب شر حه بضصورة أكثر 
عمقاء وأشار إلى أن كل المتطلبات السابقة تمشل أهمية كبرى للمستفيدين» ولكي تستطيع 
نظم استرجاع المعلومات أن تخدم المستفيدين بكفاءة فإن عليه ا أن توفر إمكانيات 
التصفح التي تساعد المستفيدين على الوصول إلى كل ما سبق. وقد أوضح كول K0١1,(‏ 
0 آنه في حالات التعامل مع الإبرة في كومة قش أو الأكوام نفسها إ0 sعالءN‏ 
ةرط أو ما شابه» فإن التصفح يُعد الوسيلة الأفضل لاسترجاع المعلومات. 

فعند التصفح لا يحتاج المستفيد إلى التعبير عن المشكلة المعلوماتية في صورة 
اصطلاحية محددة باستخدام عبارة بحثية» كما هو الحال في عملية البحث. فعملية 
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التصفح تحتاج إلى جهد معرفي آقل بكثير مما تحتاج إليه عملية البحث. وذلك رغم 
آنه أثناء عملية البحث يجب أن يظل المستفيدون على اتصال وتفاعل دائمين مع نظم 
استرجاع المعلومات بغرض فحص وقياس أو تقييم المعلومات من خلال عمليات 
التصفح بالقشط أو المسح ثم إصدار أحكام صلاحية عن مدى دقة المعلومات 
المسترجعة» مايجعل الحمل المعرفي 1044 ١1۷٤:ع«ه)‏ الذي يبذله المستفيد في عملية 
تصفح النتائج المسترجعة أكبر بكثير من اختيار البحث كوسيلة لاسترجاع المعلومات. 
وعلى عكس البحث» فإن التصفح عملية حدسية لا تحتاج إلى تدريب أو خبرة كوسيلة 
لاسترجاع المعلومات. وقد أو ضح مارشيونيني وواڀيت )2007 (Marchionini & White,‏ 
أن عملية التصفح هي عملية طبيعيةء نظراً لأنها توافق نظرة الإنسان للمصادر الطبيعية 
والعاطفية والمعرفية» وتتسق مع رؤيته ومراقبته للعالم المادي والبحث عن العناصر 
المادية. من ثم فإن عملية التصفح تتسم بالسهولة كعملية التنفس عند الإنسان. وعلى 
الرغم من ذلك فإنه توجد بعض الآليات المتطورة التي تيسر عملية التصفح» وعادة ما 
يعاني المستفيد من مشكلة عدم وجود إرشادات كافية تمكنه من الاعتماد عليهالمعرفة 
متى يحتاج إلى الاستمرار في عملية التصفح ومتى يجب أن يتوقف عن تصفح مصدر 
معين؟ وهذا أمر يشبه القرار الذي يتخذه المؤلف عند التحول من القراءة إلى الكتابةه 
حيث إن عمليات البحث والتصفح والحاجة إلى الاستمرار في القراءة والتوقف لبدء 
الكتابة أو الاستمرار في الكتابة والتوقف والتوجه نحو النشر كلها عمليات معرفية 
تحتاج إلى قرارات شخصية وتعد مؤشراً قوياً للنضج المعرفي لدى الشخص» كما أنها 
امور تر ترط بالإشباع المعرفي .Knowledge Satisfaction‏ 


وتجدر الإشارة إلى أن التصفح قديكون نشاطاً فعالاً في كثير من الأحيان» 
حيث يقود المستفيد بالمصادفة للوصول إلى معلومات لم تكن متوقعة» فالتصفح 
يتيح للمستفيد الببحث عن المعلومات بصورة عشوائية وبطريقة غير مهيكلة في ذهنه 
مقدماء ولا توجد عبارة بحثية محددةء وكأي نشاط من أنشطة التفاعل مع المعلومات» 
فإن التصفح له العديد من المزايا والكثير من العيوب» كما أن له آليات متنوعة 
ومتعددة سيتم عرضها فيما يلي: 
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8.2.2 أنواع التصفح 

فكما أشرنا من قبل فإن عملية التصفح تعد طريقة غير مهيكلة لاسترجاع 
المعلومات» كمايفتقر إلى التحديد الاصطلاحي والعبارة البحثية الواضحة التي يتم 
صياغتها في صورة استراتيجية بحث. وقد صنفت العديد من الدراسات أنواع التصفح 
Jal .(eg: Herner,1960; Kowalski,2007; Marchionini & White, 2007) ling‏ 
أبرز هذه التصنيفات تصنيف هرنر »)]1٥۲١٠۲,1960(‏ الذي صنفها إلى ثلاث ات هى: 

. التصفح المباشر (ie) Bro wsi¬£‏ ویقصد به التصفح من أجل الوصول 
إلى مادة أو مواد محددومعروفة. 

- التصفح شبه المباشر ع«ذsسه8۲ Die ٤٤‏ أصع5: يقصد به التصفح من أجل 
الوصول إلى مادة أو مواد قريبة من صور ذهنية شبيهة من مادة معينة فى 
ذهن المستفيد. 

ج التصفح غير المباشر Non Direc) Browsing‏ وقد أشار إليه هرنر بالتصفح 
العشوائي الذي يقوم به المستفيد من أجل الوصول إلى أي معلومات ذات 
علاقة بموضوع معين دون أن يكون لدى المستفيد صورة ذهنية محددة أو 
شبه محددة لمايحتاج إليه أو مايمكن أن يصل إليه. 

كماقام مارشيونيني ووایت (2007 ,e†¡؟‏ & 1۸1" 0نطMarc)‏ بتصنیف التصفح 

Systematic ٳڦمlظنلا‎ 

- الاستکشافی 0۲۷اExpl0۲a‏ 


Casual or Non -syste atic العرضى أو غير النظامى‎ - 


يستخدم التصفح المباشر أو النظامي عندما يكون المستفيد على علم تام بما 
يبحث عنه مثل التصفح من أجل الوصول إلى صفحة معينة بأحد المواقع أو 
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الوصول إلى كلمة محددة في قاموس» بينما يستخدم المستفيدون التصفح شبه 
المباشر أو الاستكشافي عندما لا يكون لديهم أهداف دقيقة واحتياجات محددة. 
وتظهر هذا الحالة في مرحلة استكشاف جوانب الموضوع من خلال البحث» فيقوم 
المستفيدون بعمليات القشط والمسح لتحديد مايبحثون عنه. فعلى سبيل المثال» 
قد يكون المستفيد على علم بأن أحد التقارير قد ناقش موضوعاً أو فكرة مهمة» 
فيقوم المستفيد بتصفح التقرير للوصول إلى تلك الفكرة وتحديدهاوفقالماورد 
بالتقرير» دون آن يكون على علم مسبق بها. ويعد التصفح غير المباشر أو العرضي 
أقل أسلوب من أساليب التصفح تماسكأء حيث لا يمكن التنبؤ فيه بما سيصل إليه 
المستفيد أو مكان وجوده. ويتسم هذا الأسلوب بأآنه ليس له احتياجات معلوماتية 
محددة» وأبرز نموذج لذلك عندمايقوم المستفيد بالقفز من خبر إلى آخر عند مسح 
موقع للأخبار أملاً في الوصول إلى شيء مفيد يمكن أن يقرأه. وهو مثل ما يحدث 
مع الباحثين عند تصفح مجلة بموضوعات تدخل في نطاق اهتمامهم. 

وقد حدد كوالسكي (2007 ,)اه »هK)‏ ثلاثة أساليب يقوم بها المستفيدون 
لتصفح النتائج التي يحصلون عليها: 


الت لتصفح وفقاً للترتيب 


Browseng By Ranking 


تستعرض معظم نظم استرجاع المعلومات في البيشة الرقمية النتائج في صورة 
مرتبة بالاعتماد على خوارزمية ترتيب محددة» ويسعى كثير من المستفيدين إلى 
تصفح النتائج ذات علاقة الصلاحية الأقوى بموضوعاتهم أولاًء من ثم يقومون باختيار 
ه التصفح بالمنطقة 


Browsing By Zone 
عادة مايتم وضع المعلومات التي لها أهمية خاصة لدى المستفيد في مناطق محددة‎ 
عند عرض النتائج مثل حقول البيانات التقليدية (العنوان» المستخلص,» تاريخ النشر.. الخ)‎ 
حيث تشتمل هذه الحقول على مواضع معلومات غنية يسعى المستفيد إلى تصفحها.‎ 


أساليب الاسترجاع 


٠‏ التصفح بالمناطق البارزة 


Browsing By Highlighted Zone 


تقوم بعض نظم استرجاع المعلومات بتسليط الضوء على معلومات معينة مثل 
تيد و اجا مان وغه مره وفال أك للك تة هح الاطع الباررة 


إضافة إلى ما سبق فقد شار كوالسكي (2007 ,ن)یاة»هK)‏ إلى فئتين أساسيتين 
للتصفح تستخدمان بكثافة في بيئة استرجاع المعلومات على الإنترنت وهما:- 

Browsing By Category ٽlڌفllڊ التصفح‎ - 

Browsing By Hyper links ةقildll‎ طبlورلاب التصفح‎ - 


وقدبرز التصفح بالفغات في أدلة ببحث الويب Web Directs‏ مثل ياهو» ففي 
هذه النوعية من أدوات بحث الإنترنت يتم تجميع المعلومات وتصنيفها تحت فات 
محددة مسبقاً بناء على آليات التكشيف والتصنيف للفقات مشل الحاسبات» التعليم 
الترفيه» الرياضة. فعلى سبيل المثال المستفيد الذي يبحث عن فيلم لكي يشاهده 
سوف يقوم طبيعياً بتصفح فئة الترفيه. ويعد التصفح بالروابط الفائقة أحد السمات 
المهمة التي تتميز بها بيئة الويب» والذي يعد الملمح الأساسي في كل الأنشطة 
الشات الجا حة من علال ب الشكة الى ية 

وتعد الروابط الفائقة وحدات طرفية 65ل ومؤشرات ١۲ا«‏ ذه۲ يتم وضعها ضمن 
النصوص الفائقة بحيث تحاكى بصورة ذكية طريقة التفكير العلائقى ع121۷ 0ءءA‏ 
Thinkin‏ لدی الإانسان» e‏ ضح بوش (s1,1945ں8)‏ آن عقل الإنسان يعمل 
بطريقة علائقية» فمع استيعاب نقطة ما تنفجر 524P‏ معها في نفس الوقت إلى نقطة 
أخرى تقترحهامن خلال ترابط الأفكار Association of Thoughts‏ في تطابق مع 
بعض العقد العنكبوتية المتشابكة لمحاولات خلايا المخ فك ذلك التعقيد. 


وقد تحول هذا النمط من التفكير الإنساني إلى واقع ملموس بشكل واضح وعميق 
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مع اختراع وتطبيتق الروابط الفائقة من خلال تيم بيرنرلي. فالويب بأكملها تتكون من 
معلومات نصية ووسائط متعددة يتم ربطها معا في روابط فائقة. وتساعد تلك الروابط 
الفائقة على توجيه المستفيد لتصفح وإيجاد المعلومات الرقمية المتاحة على الويب. 
لذلك فإن نظم استرجاع المعلومات ذات البنية الفlئقة Hyper Structuned IR System‏ 
أصبحت إحدى آبرز إن لم تكن أهم بيئات تصفح المعلومات الحالية. 


ويتضح مما سبق أن التصفح يمكن تصنيفه إلى عدة فقات باستخدام معايير 
متعددةء إلا أن الهدف من التصفح لابد أن يظل واحدأ في نظام استرجاع المعلومات 
وهو تيسير الوصول إلى المعلومات التي يسعى إليها المستفيد. 


4 3 استراتيجيات التصفح 
Browsing Stratagies‏ 


يعد التصفح أحد آليات الوصول إلى المعلومات» مثله في ذلك مثل البحث» 
وتتم عمليات التصفح من خلال استراتيجيات متنوعة. وقد أوضح مارشونيني ووايت 
)Marchionini & White 200‏ آنه توجد أربع استراتيجيات للتصفح هي: المسح» 
الملاحظة» الإبحارء المراقبة. 


Scan المسح‎ 1 q 


يُعد المسح أكشر استراتيجيات التصفح تنظيماً نظراً لأنه يتعامل مع الكيانات 
المحددة تحديدادقيقا في بيئات استرجاع المعلومات عالية التنظيم. فالمستفيد الذي 
يستخدم تلك الأستراتيجية يعرف بالضبط ما الذي يبحث عنه» حيث يبحث عن كيان 
محدد الهوية» من ثم فإنه يمسح المعلومات التي يتيحها النظام إما خطيا راإLinea‏ 
أو اختياريا واع۷اءء1ء5. ويتم المسح الخطي من خلال تصفح فضاء المعلومات 
باستخدام آلية التتابع الخطي لاءدعما a1نا١عuوء؟‏ التي يقوم فيها المستفيد 
باستعراض المواد مادة مادة (2007 ,زط & Marchionini)ومن‏ أبرز الأمثلة على 
ذلك مسح قائمة عناوين النتائج المسترجعة للوصول إلى المادة المطلوبة. 
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ما المسح الاختياري فيعني استعراض أجزاء محددة من المعلومات (على سبيل 
المشال الرؤوس, الروابط» الصور» والمحتوى المتاح بألوان مختلفة بمواقع الويب) 
دون غيرها من المعلومات التي يعرضها النظام. ويقوم المستفيد بمسح هذه العناصر 
لتحديد الفقات التي يرغب في الحصول عليها والاختيار من بينها. فقد يبحث 
المستفيد عن قوع معين يسناج فيه إلى استعراض الصور أو الوسائط المتعددة. 
وتعد استراتيجية المسح الاسترتيجية الأساسية التي تستند إليها آليات التصفح النظامي 
Systematic Browsing‏ والتي يتم تطبيقها في أدوات تصفح الإنترنت. 


Observation ةۈ؛ۋaحاlلlملا‎ 8.2.3.2 


مقارنة بالمسح تعد «الملاحظة) استراتيجية التصفح الرئيسة التي تستخدم في عملیات 
الاكتشاف أو التصفح العام sa1 N28‏ حيث يجب أن يكون المستفيد منتبها إلى الأجزاء 
التي يتم عرضها ويكون على وعي بالمعلومات وبالأجزاء الأخرى التي يعرضها الموقع مشل 
الإعلانات حتى لا يتشتت انتباهه. بمعنى آخر أن النظام يعرض العديد من المعلومات للمستفيدء 
لذلك لابد أن يكون المستفيد منتبهاً ويركز على احتياجاته ويتجاهل المعلومات الأخرى التي 
لا تدخل في نطاق اهتمامه حتى لا يتشتت في مواقع ليس لها علاقه باحتياجاته المعلوماتية. 


Navigation رlaڊإJl‎ 8.2.3.3 4 


هو من استراتيجيات التصفح التي تسعى إلى تحقيق التوازن بين تأثير المستفيد 
وبيئة نظام استرجاع المعلومات» حيث تقوم بيئة استرجاع المعلومات بتقييد عملية 

كما تعتمد أيضاً استراتيجية الإبحار ۷1610١‏ على التغذية المرتدة من نظام 
استرجاع المعلومات» والتى يمكن أن تستخدم بصورة نظامية ءناة١٣عاءر؟‏ أو عرضية 
1م أثناء عملية التصفح. وتجدر الإشارة إلى أن استراتيجية الملاحظة غالباًمايتم 
تطبيقها مقترنة باستراتيجية الإبحار )2007 .(Marchionini & White,‏ 
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8.2.3.4 المراقبة االمتابعة 


هي استراتيجية تشبه استرتيجية المسح» لكنها تتم في البيات ذات البنية المعلوماتية 
الفقيرة هیکلیاً )2007 .)Poorly Structured Marchionini & White,‏ فأثناء قيام 
المستفيد بتصفح النتائج المسترجعة من النظام» من الممكن أن يقوم أيضا بمتابعة 
على فلسفة استخدام المسارات الموازية في البحث عن المعلومات (مسار تصفح 
المعلومات التي يحتاج إليها المستفيد يتم بالتوازي مع متابعة التقارير الإخبارية 
التي يبثها الراديو أو التلفزيون). وعادة ما تستخدم استراتيجية المراقبة (المتابعة) في 
عملیات التصفح الاکتشافی ع«ذsس‏ إ8 رإهاهإهام×8 الذي يسعى إلى الوصول إلى 

ويمكن القول بإيجاز إن التصفح يعد إحدى آليات الوصول إلى المعلومات 
من خلال الاستعراض والاكتشاف. وتختلف آلية التصفح عن آلية البحث التي 
تمت مناقشتها سابقاً في مدى تحكم المستفيد في المدخلات وماينتج عنها. ولا 
أو أن يتوقف عن التصفح. ولا توجد مؤشرات يمكن الاستناد إليهامن جانب 
المستفيد في متابعة العمل باستراتيجية معينة أو تغييرها سوى طبيعة بيئة نظام 
استرجاع المعلومات. وعادة ما يعتمد المستفيدون على عدد من المعايير الكيفية 
في تحديد الاستراتيجية التي يتبعونها مثل مدى رضا المستفيد والجهد المعرفي 
المطلوب» وذلك من أجل اتخاذ القرار الملائم لاختيار استراتيجية التصفح 
الملائمة. كما آنه لا توجد خطوط فاصلة تحدد متى يمكن اختيار أي استراتيجية 
يتبعها المستفيدون وتحت آي ظرف. هل التصفح كوسيلة استرجاع يعمل بكفاءة 
الببحث» آم هل يعمل بكفاءة أعلى إذاتم استخدامه بشكل مستقل؟ ويحاول 
الجزء التالى اللإجابة على هله التساؤ لات. 
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8.2.4 التكامل بين البحث والتصفح في الاسترجاع 


يعد البحث والتصفح أبرز الأساليب الفريدة والمميزة لاسترجاع المعلومات» 
فمنذ أكثر من نصف قرن مضى قام لوهان (10«,1958) بتصنيف طرق الاسترجاع 
إلى ثلاثة طرق أساسية هى: 

1. استرجاع المعلومات من خلال البحث في مصفوفة مرتبة ۲۲۵^ لءإءل0 من 

التسجلات المخرنة. 


2. استرجاع المعلومات من خلال الببحث بمصفوفة غير مرتبة ع۲عل0۲ N0,‏ 
رهA1۲‏ من التسجيلات المخزنة. 


3. مزيج من الطريقتين السابقتين. 

ومما لا شك فيه أن المصطلحات وبنية نظم قواعد البيانات قد تغيرت كثيرآمع 
التطورات التي حدثت خلال تلك الفترة. ومع ذلك يمكن النظر إلى الطريقة الأولى 
التي وصفها لوهان على آنها التصفح» والطريقة الثانية على أنها البحث. أما الثالثة 
فهي الطريقة التي يجب شرحها بتفصيل حيث تعمل على المزج بين الأسلوبين. 


8.2.5 المقارنة بين التصفح والبحث 


في الجزء السابق تم شرح ملامح عمليتي البحث والتصفح. وقد آشار كوكس 
0,199 ) إلى أنه يمكن النظر إلى التصفح على أنه يحدد مسار أين إلى ماذا ۷1۴ 
1 10. وتستند الفكرة الأساسية إلى أن المستفيد يعرف أين يبدأ بقاعدة البيانات ويريد أن 
يعرف ما المتاح من مصادر بها. وعلى العكس فإن البحث ينطلق من ماذا إلی این ۴۲0۳ 
Wht i٥ Whe‏ وتستند الفكرة إلى أن المستفيد يعرف ما الذي يحتاج الوصول إليه وأين 
توجد تلك المعلومات بقاعدة البیانات. وقد وصف مارشونینی ووایت )& Marchio"ini‏ 
7 ,8اط ) البحث بأنه الاستراتيجية الرسمية والتحليلية ا المعلومات» بينما 
وصف التصفح بأنه استراتيجية غير رسمية واعتınاطية .Informal and Heuristic‏ وبعيداعن 
هذا الوصف فإن البحث والتصفح يختلفان عن بعضهما بعضا في الجوانب التالية: 
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ا. حاجة المعلومات أو الاحتياج المعلوماتي Information Need‏ 


تعد الحاجة إلى المعلومات إحدى أهم المعايير الأساسية التي يمكن على أساسها 
تحديد الطريقة الملائمة للوصول إلى المعلومات» سواء كانت من خلال الببحث أو 
التصفح. ففی حالة الاحتياجات المعلوماتية المعروفة والمحددة» فإن البحث يظهر 
كأفضل اختيار للمستفيد» حيث إنه يساعد المستفيد في الوصول إلى ما يحتاج إليه 
بفاعلية وكفاءة» نظراً لأنه يبحث عن إبرة فى كوnة‏ llقش .A Needle from Haystack‏ 


.١‏ وفي المقابل فإن التصفح يعد البديل الأمثل للمستفيد في حالة الاحتياجات 
المعلوماتية الفضفاضة (الواسعة) وغير المحددة. ويمكن للمستفيد في هذه الحالة 
استخدام تكتيكات (آليات) تصفح مختلفة مثل المسح والإبحار لتحديد ما إذا 
كانت توجد آي معلومات صالحة حول الموضوع الذي يبحث عنه بنظام استرجاع 
المعلومات آم لا تضاهي احتياجاته. كما أن التصفح يساعد في هذه الحالة على تمكين 
المستفيد من الوصول إلى التحديد الدقيق لاحتياجاته المعلوماتية والمصطلحات 
الملائمة لهاء مايساعد على إجراء ببحث أكثر دقة وكفاءة. 


Efficiency and potential for Improrement اا كفاءة وإمكانات اتح‎ 


عند المقارنة بين البحث والتصفح فإنه يجب أن يؤخذ في الاعتبار كفاءة 
الاسترجاع وإمكانية تحسين تلك الكفاءة. فيمكن القول بصفة عامة إن البحث سريع 
Quicg‏ ومرکز ئ وموجه مباشرة إلى النقطة 11١ ۴1٠۲‏ 0) ۲إعR‏ التي يحتاج 
إليها المستفيد» في حين أن التصفح يستهلك وقتأطويلأً وغير مركز بدقة على 
نطاق محدد» كما آنه من المحتمل أن يؤدي إلى تشتت 011۲4٥14‏ المستفيد. وعلى 
الرغم من آنه توجد العديد من الأساليب التي يمكن بها للمستفيد أن يقوم بتضييق 
نطاق البحث» ما يساعد على تحسين مستوى آداء الاسترجاع» إلا آن ذلك لا يتحقق 
في التصفح الذي لا يوجد به آليات لتحسين الأداء إضافة إلى أن المستفيد سوف 
يحصل على المعلومات فقط من الجزء الذي يتصفحه. ونظريا يمكن لعملية التصفح 
أن تستمر إلى ما لانهاية إذالم يقم المستفيد بوقفها وإنهائها. في نفس الوقت الذي 
تنخفض فيه دقة عملية التصفح في هذه العملية الممتدة ع۴0 0۸e‏ 1هإ۴. 
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۷. الحمل المعرفي لها n¡)iveوه)‏ 


يمكن تقسيم عملية البحث عن المعلومات إلى ثلاث خطوات أساسية هي: 
- تJıin‏ تفار Representing the Queny‏ 
-|جرlء‏ ئح Conducting the Search‏ 


Evaluating the Results -تقييم النتائج‎ 


وتحتاج الخطوتان الأولى والثالثة حملا معرفياً كبيراً نسبياً مقارنة بالخطوة الثانية 
إذالم يحاول المستفيد أن يتفاعل مع النظام أثناء عملية البحث. وفي المقابل فإن 
منتبهاً لمايتم عرضه من النظام. وتجدر الإشارة إلى أن عملية التصفح منهكة 
ا ا ي ا ا ت 
إلى تقييم نتائج التصفح بشكل مستمر وبسرعة وفقا لمعايير محددة لاختيار البديل 
المناسب الذي يمكنه من الانتقال إلى المرحلة التالية من التصفح. 

لذلك فإن التصفح بعتمد على قدرة المستفيد على تمييز النتائج الصالحة أثناء 
التصفح مقارنة باستدعاء ۸٠١۵11‏ النتائج الصالحة عند البحث في النظام» مايضع عبغاً 
آخر على المستفيد. 


Serendipity ãةفدlصملl‎ .V 


تلعب المصادفة في عملية الببحث دوراً محدوداً أو أنها غير موجودة تقريباًء نظراً 
لأن النظام يضاهي استفسار المستفيد بما هو متاح بقاعدة البيانات. فمن غير العملي 
أو المحتمل أن يتمكن المستفيد من مسح النظام بأكمله لتمييز المعلومات التي 
تضاهي استفساره وتحديد ما إذا كانت هناك معلومات إضافية غير التي تم استرجعها 
من النظام. وفي المقابل فإن التصفح يخضع لاحتمالات المصادفة في الوصول إلى 
نتائج غير محتملة» حيث إنه من المحتمل أن يصل المستفيد إلى معلومات مفيدة 
وغير متوقعة عند تصفح النظام. 


الفغصل التامن 


ا۷. الجھد :ئ٤Effor‏ 


تتميز عملية البحث بأنها عملية منظمة لها بنية ل٥إںاء‏ ء5 لذلك يمكن أن يتم تأهيل 
وتدريب المستفيد عليها بحيث يتمكن من التعامل مع كافة أنظمة البحث» وفي المقابل 
فإن عملية التصفح هي مجموعة إجراءات طبيعية حدسية تتم من جانب المستفيد ولا 
تحتاج إلى قضاء وقت في التدريب والتأهيل لتلك العملية» إضافة إلى ذلك فإن عملية 
التصفح لا تحتاج إلى تمثيل الاستفسار» مايحرر المستفيد من مهمة صعبة معقدة جدا 
تتمثل في تحديد المصطلحات البحثية والربط بينها واختيار آلية البحث المناسبة. ويساعد 
تحرر المستفيد من كل هذه المهام المعقدة على التركيز أكثر على عملية التصفح. 

ويلخص الجدول8.1 عناصر المقارنة بين البحث والتصفح والتي تتضمن خمسة محاور أساسية: 
جانب المقارنة ٠‏ الاحتياج الكفاءة ‏ الحمل المعرني | المصادفة الجهدالمطلوب 
المعلوماقي 
لہا 


التصفح واسع وغیر منخفض ثقيل آکبر قل 
مؤکد 


8.3 النهج المتكامل 


Integrated Approach 


أوضحت المقارنة الواردة فى الجدول 1 أن لكل من البحث والتصفح مزايا 
وعيوباً. فكل منهما يعمل كطريقة استرجاع مثالية في ظروف معينة وبشروط محددة. 
ذلك على الرغم من أنه توجد بعض المواقف التي يبدو فيها أن هناك نهجاً أو طريقة 
أكثر ملاءمة من الآخرى» فإن تحقيق التكامل بينهما يؤدي إلى تحسين أداة الاسترجاع 
بصفه عامة. فمن الممكن آلا نحتاج إلى إجراء بحث في بعض الحالات» إلا أن التصفح 
يبدو آنه نشاط أساسي في كل عمليات الاسترجاع من أجل الحكم على صلاحية 


أساليب الاسترجاع 


التتائج المسترجعة. علاوة على ذلك» فإن أنظمة استرجاع المعلومات تم تصميمها 
لتحفيز وتشجيع المستفيدين على النهج المتكامل في مجتمع استرجاع المعلومات. 


ففي أنظمة استرجاع المعلومات التي تم تصميمها مع بدايات ظهور نظم 
الاسترجاع على الخط المباشر تم استخدام القوائم مء" وخيارات البحث 1١٤إ4ءS‏ 
5 بشكل متواز» من ثم يمكن للمستفيد أن يختار البحث أو التصفح حسب 
احتياجاته. ومع بداية نظم استرجاع المعلومات من خلال الإنترنت ظل النموذج 
الأساسي لتيسير الوصول إلى المعلومات هو استخدام الآدلة sمiإهاءهءDi‏ وآليات 
ازحى Search Mechanism‏ پا الي جنب. وذلك على الرغم من أن بعض النظم 
التي تم تطويرها وإتاحتها للمجتمع العام في بدايات استرجاع المعلومات من خلال 
الإنترنت» استخدمت نموذجاً واحداًللوصول إلى المعلومات مغل استخدام ياهو 
للتصفح من خلال الأدلة واستخدام محرك البحث ۸14۷1٤4‏ للبحث» وليس كليهما. 


ولحسن الحظ فإن العديد من أنظمة استرجاع المعلومات على الإنترنت أدركت 
سريعاً مزايا دعم كل من آليات التصفح والبحث في نظام استرجاع واحد ما أدى إلى 
تغيير تصميمها وبنياتها للأنظمة بشكل سريع. لذلك فإنه من الصعب أن تجد نظام 


ويتمتع المستفيدون بمزايا المنهج المتكامل ليس فقط لوجود كل الأدوات 
الملائمة للوصول إلى المعلومات» ولكن أيضاً لأن هذا النهج يمكنهم من الوصول 
إلى معلومات أكثر من نفس نظام الاسترجاع. فعلى سبيل المثال نجد أن ياهو ۷4100 
يدعم البحث داخل إمكانيات تصفح الفئات التي يتيحهاء من ثم يمكن البحث في 
فغه واحدة مثل كاعه» لذلك فإن البحث داخل فة تصفحية واحدة يشبه البحث فى 
اعد اقات خم هة في محال ال التم فة الي ر الست فما للك يمن 
القول إن البحث والتصفح نموذجان متكاملان في هذه البيشة. وبطريقة مشابهة فإن 
نتائج البحث في نظم استرجاع المعلومات اليوم يتم تجميعها آليا في فغات لتيسير 
عمليات التصفح وتوسيع وتضييق نطاق البحث. من ثم فإن تطبيق البحث والتصفح 
في النظم يعطي قيمة مضافة» حيث إن واحد (البحث) مضاف إلى واحد (التصفح)» 
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من الممكن أن يكون أكثر من اثنين إذاتم دمجهما بحكمة وكفاءة. وعد هذه المعادلة 
صحيحة في إطار النهج المتكامل الذي تم شرحه. 
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نماذج استرجاع المعلومات 


4 9 مقدمة 

يعرف النموذج 1 ۆبأنه وصف دقيق لنظرية أو نظام يأخذ في الاعتبار كل 
الخصائص والملامح اللخاصة بهذا النظام (19849, .)Soukhanov,et al‏ وقد تم 
تطوير عدة نماذج لاسترجاع المعلومات خلال النصف الثاني من القرن العشرين. 
ويستعرض هذا الفصل النماذج المختلفة لاسترجاع المعلومات بغخرض وضع أساس 
الممارسة المهنية القائمة على فهم تلك النماذج المختلفة وطرق عملها. 

ويمكن تصنيف نماذج استرجاع المعلومات وفقاً لعدة مستويات. وقداعتمدت 
الملامح الأساسية للتصنيف على نظريات ومفاهيم تم اشتقاقها من مجالات أآخرى» 
منها على سبيل المثال المنطق البولينى ءiع0ا‏ 2۸ء8001 الفراع الاتجاه Vector‏ 
مه الاحتمال رازه۴۲ . وقد وضع المتخصصون في استرجاع المعلومات طرقاً 
وأساليب متعددة لتصنيف كل نماذج استرجاع المعلومات التي تم تطويرها حتى الآن 
ومنهم )1997 .(Baeza —Yates & Ribeiro-Neto,1999; Sparck Jones & Willett,‏ 


وقد قام أنجويرسن وجارفلين )2006 (Ingwersen, & Jãrvelin,‏ بتوسیع نطاق 
التصنيف والتقسيم إلى فقات لاسترجاع المعلومات الذي وضعه كل من بيلكن 
وکرافت (1987 ,اگه٣‏ ۵ه «iاه8)‏ والذي اشتمل على النموذجين الأساسين 
للمضاهاة وهما المضاهاة التامة Exact M21٥1‏ والمضاهاة انئجjزûئية Best Match‏ . 


ويركز هذا الفصل على النماذج الموجهة لخدمة النظم System Oriented Models‏ مثJل‏ 


المنطق البوليني» الفراغ الاتجاهي» الاحتمالات. أما النماذج الآخرى لاسترجاع المعلومات 
مثل النماذج المعرفية الموجهة للمستفيدين User Oriented Cognitive Model‏ فلن یتم 
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معالجتهافي هذا الكتاب» حيث إنهاتميل إلى مجال سلوك البحث عن المعلومات 


.Information Seeking Behavior 


9.1 المضاهاة: أساس كل نماذج استرجاع المعلومات 


تعد المضاهاة هي الأساس الذي تعتمد عليه كل أنظمة استرجاع المعلومات رغم 
أنها ليست نموذجاًإنما هي المكون الأساسي لأي نموذج. وقد سبقت الإشارة إلى أن 
المضاهاة هي الآلية الأساسية في كل أنشطة استرجاع المعلومات. فالمضاهاة يمكن أن 
تتم بين المصطلحات أو بين مقاييس تشابه †s‏ اء Measu ۲e‏ arityاSimi‏ مثل المسافة 
Dita‏ أو تردد المصطلحات pig .Term Frequency‏ مضاهاة المصطلحات مباشرة 
على المصطلحات التي تشتق أو تخصص لوصف الوثائق أو الاستفسارات أو غيرهما 
من آساليب التمثيل التي يتم على أساسها إجراء مضاهاة لمقياس التشابه ا٣ة S1‏ 
Measuremeut Matching‏ بصورة غير مباشرة على المقاييس التي يتم الحصول عليها 
من تنفيذ العملية الحسابية. على سبيل المشال المسافة بين الزوايا كما هو الحال في 
نموذج الفراغ الاتجاهي» وسوف يركز القسمان التاليان على مناقشة هذين النوعين 
من أنواع المضاهاة. 


9.1.1 مضاهاة المصطلحات 
Term Matching‏ 


سبقت الإشارة إلى أن المصطلحات التي تستخدم في تمثيل المعلومات بنظم 
استرجاع المعلومات تأخذ أشكالا متعددة مثل الكلمات المفتاحية (ئلإ0سywمK)‏ 
الواصفات ءامامذاءیە 0 المؤشرات ء۲اگنا«هل1. وتشتمل المصطلحات على أشكال 
متنوعة مثل الكلمات» العبارات أو غيرها من شكال التعبير مثل المعادلات.. الخ» 
إضافة إلى ذلك فإن مضاهاة المصطلحات من الممكن أن تتم في آي شكل من 
الأشكال الأربعة التالية: 


Exact Match ةnlill المضاهاة‎ _ 


نماذج استرجاع المعلومات 


.Partial Match -المضاهاة الجزئية‎ 
.Positional Match المضاهاة بالموضع‎ 


. Range Match المضاهاة النطاقية‎ 


وسوف نتناول فيما يلي كل طريقة من طرق المضاهاة وطريقة عملها. 


4 9.1.2 المضاهاة التامة 
Exact Match‏ 


تعنى أن تمثيل الاستفسار Query Representa i01‏ يضاھى تماما تمثيل الوثيقة 
Document Representation‏ في نظام اتسر جاع المعلومات. 


ولعل أبرز نماذج المضاهاة التامة الببحث باستخدام الحروف الحساسة ئ٣‏ 
را۷ا ens‏ والبحث بالجمل والعبارات بنظم استرجاع المعلومات. فعلى سبيل 
المثال مصطلح تصفية آو فرز الویب ۴1۲۶۲٠٣2‏ ا۷6 يمثل استفسار المستفيد ويظهر 


بنفس الشكل في الوثيقة وبالنظام الذي يتم البحث فيه. من ثم يحصل المستفيد على 
اطا ابا لا ساره 


9.1.3 المضاهاة الجزئية 
Partial Match‏ 


على عكس المضاهاة التامةء فإن المضاهاة الجزئية تتعامل مع جزء فقط من 
مصطلحات الاستفسار والذي يظهر في النتائج المسترجعة والتي تعبر تمثيل الوثائق 
بنظام استرجاع المعلومات. ويعدالبتر Truncation‏ في مصطلحات البحث أحد أبرز 
نماذج المضاهاة الجزئية. فعلى سبيل المثال عند البحث عن مصطلح Information‏ 
Technolog‏ (يستخدم رمز النجمة للدلالة على البتر) فإن هذاالاستفسار سوف 


Information Technolog, Information Technologist, Je Jnتشت يسترجع وثائق‎ 
کنتائج للمضاهاة الجزئية.‎ Information Technologies 
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9.1.4 المضاهاة بالموضع 


Positional Match 


Ss‏ الم رمات ال ا اا عة 
المضاهاة. ويعد الببحث التجاوري Proximity Searching‏ ا لهذه الحالة. فإذا 
كان استفسار المستفيد هو متجر المواد المستعملة S0٤١‏ طانw‏ dمUs‏ فإن النتائج 
المسترجعة سوف تشتمل و وثائق تتضمن عبارات مثل: 


Store Book Used 
Store Clothing Used 
Store Furniture Used 


وتتم عملية المضاهاة هنا بين تمثيل الاستفسار وتمثيل الوثيقة فقط على الكلمة 
الأولى والكلمة الأخيرة» على أن تأتي بينهما أي كلمة أخرى» ويتم تجاهل الكلمة 
التى تأتى فى الوسط أثناء عملية المضاهاة. 


9.1.5 المضاهاة النطاقية 
Rang Match‏ 


تنطبق المضاهاة النطاقية على العبارات الرقمية مثل البحث عن قيمة التخفيض 
Î Sale Amount‏ التواريخ أو العبارات ذات الترتيب الطبيعي مثل شهور السنة 
(يناير» فبرايرء... ديسمبر) ويتم في المضاهاة النطاقية تحديد نطاق الببحث بين 
نطاقين مثل الحد الأعلى Limi‏ م للاستفسار مثل الببحث عن الوثائق التي 
نشرت قبل عام 2 والحد الآدنى Lower Limit‏ مثل الوثائق ق التي نشرت بعد 
عام 1992 أو كليهماء مشل البحث عن الوثائق بين الفترة 1993 إلى 2002. من ثم فإن 
قواعد البيانات الرقمية وتواريخ النشر تعد النماذج التقليدية البارزة للبحث النطاقي. 
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هذه الآنواع الأربعة من نماذج المضاهاة تتعامل مع الاستفسار الأصلي 
وتمثيل الوثائق دون الحاجة إلى إجراء آي عمليات حسابية أو تغييرات مثشل 
التي تتم على خوارزميات البحث. وعادة ما تظهر مضاهاة المصطلحات 
في نموذج المنطق البوليني» آما في النماذج الآخرى مثل مساحة الزاوية أو 
النموذج الاحتمالي» فإن مصطلحات الاستفسار وتمثيل الوثائق يتم المضاهاة 
بينهما بطرق غير مباشرة حيث يتم تحويلها إلى مقاييس تشابه را٣‏ 1ز»Si‏ 
Measurement‏ قبل المضاهاة بينهما. 


9.1.6 مضاهاة مقياس التشابه 


يمكن إجراء مضاهاة مقياس التشابه بطرق متنوعة. ففي نموذج الفراغ الاتجاهي 
على سبیل المشال تتم المضاهاة بالاعتماد على المسافة بين الأسهم أو درجة 
مساحة الزاوية عاعAn Degree of Vector‏ فكلما كانت مساحة الزاوية صغيرة» 
ازدادت درجة التشابه بين الاستفسار والوثيقة. وفي النموذج الاحتمالي يتم حساب 
التشابه على ساس تردد المصطلحات لتحديد احتمالات الصلاحية (العلاقة) بين 
الاستفسارات والوثائق. ففي هذه النوعية من نظم المضاهاة» يتم اختيار مقياس 
تشابه كمي (المساحة» التردد) وليس المصطلحات نفسهاء ويتم إجراء المضاهاة 
النهائية بالاعتماد على هذا المقياس الكمى. وتجدر الإشارة إلى أن مضاهاة مقاييس 
التشابه تتيح من ناحية أساليب إضافية وإجراء عمليات البحث والاسترجاع» إلا أنها 
مقاییس التشابه ودرجاتها. 

باختصار وبصرف النظر عن أسلوب المضاهاةء فإن المضاهاة هى الآلية الأساسية 
لاسترجاع المعلومات. وسوف تساعد النماذج التي سيتم مناقشتها في بقية هذا 
الفصل في التعرف إلى كيف تتم عمليات المضاهاة في الظروف المختلفة» إلى 
جانب النماذج المختلفة وملامحها ومزاياها وعيوبها. 
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9.2 نموذج المنطق البوليني 


يرجع النموذج البوليني إلى مخترع فكرة المنطق البوليني جورج بولي ع0۲8ء6 
ثلاث معاملات منطقية أساسية هي: 
٠‏ المعامل المنطقى للضرب اءuلP!0 Logica‏ (%) 
٠‏ المعامل المنطقى للجمع )+( Logical Sum‏ 
٠‏ المعامل المنطقی للفرق )-( Logical Difference‏ 
وفى مقابل تلك المعاملات المنطقية الثلاث تم تو ظيف المعاملات AND, OR, NOT‏ 
لكي يتم استخدامها في العمليات المنطقية بنظم استرجاع المعلومات. وفي بدايات أنظمة 
استرجاع المعلومات على الإنترنت تم استخدام معامل الجمع (+) لتمثيل المعامل A۸2‏ 
ما آدی في بعضص الأحيان إلى حدوث بعضص الخاط كى المستفيدين»› لآنها تستخدم فعليا 
(+) للدلالة على المعامل 0۴۸ في دلالات المنطق البوليني. 
- يعتمدالمعامل 4۸2 على دمج مصطلحين أو أكثر معا في عبارة الببحث 
ويتطلب أن تظهر كل المصطلحات الواردة باستفسار المستفيد ويربطها 
الال 485 مع تكو مغل فى الرققة المسكرجهة 


- بستخدم المعامل 0۸ للجمع 8S۷‏ حيث يقوم بالربط بين مفهومين أو 
مصطلحين مرتبطين بعلاقة ما معا في عبارة البحث. ويستخدم للدلالة على 
ورود آي من تلك المصطلحات التي تحويها عبارة البحث المربوطة بالمعامل 
بالوثيقة المسترجعة أو كل أو بعض المصطلحات. من ڈ ثم فالوثيقة التي 
تشتمل على أي من المصطلحات التي تم تخصيصها في عبارة البحث يتم 
اعتبارها وثيقة صالحة ويسترجعها النظام. 

- يساعد معامل الفرق أو المعامل N01‏ على تقييد البحث من خلال استبعاد 
المصطلحات الواردة بعد المعامل N01‏ من الاستفسار» من ثم استرجاع 
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الوثائق التى لا تشتمل على تلك المصطلحات واستبعاد الوثائق التى تشتمل 
عليها. وقد تم عرض العديد من النماذج والأمثلة على هذه الحالات 
الخ فة راخدا اھا نے معالجات الیط ق البو لیتی: 
وكماسبقت الإإشارة فإن مورتیمر تیوب ٥ص1 ٥۲‏ "1اه هو آول من استخدم 
المنطق البوليني في استرجاع المعلومات. ومع تطور استخدام الأنظمة الآلية 
المحسبة في استرجاع المعلومات ازداد الاهتمام بتوظيف المنطق البوليني الذي أآثبت 
جدارته وكفاءته فى تمثيل التعبير عن استفسارات المستفيدين. وفى العصر الرقمى 
الذي يعتمد بصفة أساسية على استخدام الإنترنت في إتاحة المعلومات» يوجد عدد 
محدود جدأ من الأنظمة التي لا تدعم النموذج البوليني في البحث والاسترجاع. 
وقد آشار سبارك جونز وویليت (1997 ,ء11 & 8ع[ ٣هم5)‏ إلى أن نموذج 
المنطق البوليني يعد أكثر الآليات انتشاراً وتطبيقاً في عمليات استرجاع المعلومات. 
لكن هذا لايعني أن المنطق البوليني كنموذج لاسترجاع المعلومات يخلو من العيوب 
وان كله فر ياء فلي العکس مسن ذلك ت ج العديد سن التراسات الى تناولست 
مقارنات مفصلة حول مزايا وعيوب نموذج المنطق البوليني عند تطبيقه باسترجاع 
المعلومات. ومن أمثلة هذه الدراسات Chowdhury, 2010 ; Cooper,1988;)‏ 
.(Frants,et al,1999; Korfhage,1997; Spack - Jones &Wlillett, 1997‏ 


وسيتم فيما يلي استعراض تلك المزايا والعيوب بشيء من التفصيل: 


9.2.1 مزايا نموذج المنطق البولينى 

لقد ثبت التطبيتق المكثف لنموذج المنطق البوليني باسترجاع المعلومات جدارة 
وكفاءة هذا النموذج بصورة واضحة. ويرجع ذلك لعدة أسباب: 

أولا: أنه يدعم معالجة الأوجه المتنوعة لاحتياجات المستفيدين» حيث يساعد 
على تفكيك الاستفسارات أو الوثائق إلى مفاهيم مستقلة والتعبير عن العلاقات بينها. 
فالمعامل ۸۸2 يقوم بالدمج بين وجهين مختلفين» ما يساعد على التعبير عن الأوجه 


الفصل التاسع 


المعقدة لاحتياجات المستفيدين وتضييق نطاق البحث» أما المعامل 0۸ فيساعد على 
تحديد الأوجه المختلفة للاستفسار أو الوثيقة» مايساعد على توسيع نطاق البحث 
من خلال توفير بدائل متنوعة للمصطلحات أو التعبير عنها بكلمات ذات علاقة 
مباشرة بها. ويساعد المعامل N01‏ على فصل الأوجه المعقدة إلى وجه أكثر بساطة 
من ثم يتمكن المستفيد من استبعاد الأوجه التي لا يرغب في ظهورهافي قائمة 
النتائج النهائية. من ثم فإن تطبيق نموذج المنطق البوليني يساعد على تحقيق المرونة 
والفعالية لمستوى لا يمكن لأي نموذج آخر لاسترجاع المعلومات أن ينافسه فيه. 

ثانياً: أن تطبيق نموذج المنطق البوليني بنظم استرجاع المعلومات أثبت فعالية 
لته إلى المسترق الق يجله آذ الغطلبات الأساسه للمسيدين من تلك 
النظم. فقد وصل عدد الأنظمة العالمية التي تطبق هذا النموذج في عمليات البحث 
والاسترجاع إلى الآلاف» حيث تمكن هذه الأنظمة المستفيد النهائي من معالجة 
استفساره باستخدام معاملات المنطق البوليني لتوسيع أو تضييق أو حتى استبعاد 
بعض الأجزاء من المفاهيم. وذلك على الرغم من أن بعض الباحثين مثل (81)¡۸ 
7 ,اه &) يرون أن نموذج المنطق البوليني اكتسب شهرته من خلال الممارسة 
الواسعة وليس من خلال قوة نظريته. 


ثالثاً: يتميز نموذج المنطق البوليني بسهولة فهمه (1)1,1997 [01e & W1‏ - )>ةمS)‏ 
وذلك على الرغم من أن عددا محدودا من الدراسات تناولت المقارنة بين مايمكن 
للنظام تحقيقه في مقابل ما لا بستطيع أداءه كنموذج لاسترجاع المعلومات» والذي 
ربمايرجع إلى عاملين أساسين هما: 


٠‏ الأول: أن نموذج المنطق البوليني هو الأقدم بين كل نماذج استرجاع 
المعلومات» ويعتقد الكثيرون أن مزاياه واضحة ولا تحتاج إلى تفسيرات 
إضافية. 


ء 


٠‏ الثاني: أن نموذج المنطق البوليني تعرض للكثير من الانتقادات التي كان 
يتم تفنيد وانتقاد النموذج البوليني؛ فمن الطبيعي أن يقوم القائمون على 
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تطوير النماذج الجديدة بتحديد القيود التي توجد في النماذج الأقدم» ومنها 
فإن مصممي ومطوري نظم استرجاع المعلومات من ناحية والمستفيدين من 
ناحية أخرى يفضلون العمل مع نماذج يمكن فهمها بسهولة. 
رابعاً: أن أنظمة استرجاع المعلومات القائمة على النموذج البوليني من السهل 
تطويرها عند مقارنتها بغيرها من الأنظمة» نظراً لأن الخوارزميات التي يعتمد عليها 
النموذج البوليني أكثر بساطة في التطبيق عن غيرها من الخوارزميات التي يتم تطبيقها 
في النماذج الأخرى. 
ونتيجة لكل ماذكر سابقاً من مزاياء تشمل طريقة المعالجة واتساع الاستخدام 
فإن نموذج المنطق البوليني قد حظي باهتمام كبير في كل الدراسات التي تناولت 
نماذج استرجاع المعلومات. 


9.2.2 صعوبات نموذج المنطق البولينى 
سبقت الإشارة إلى أن قيود وعيوب نموذج المنطق البوليني تم دراستها وتناولها 
في العديد من الدراسات aژJ: Chowdhury, 1999; Cooper,1988; Frants et al.,)‏ 
Spark Jones & Wiett, 17‏ ;e,1997عKorfha‏ ;1999) وسوف یتم استعراض أهم 
الحيوب التى تناولتها تلك الدراسات فيما يلى: 
أولاً: صعوبة التطبيق 
والاسترجاع دون الحصول على القدر الكافي من التدريب والتأهيل والممارسة» 
وتكمن الصعوبة هنافي جانبين أساسيين هما: 
٠‏ من الصعب على المستفيد اختيار المعامل البوليني الصحيح دون معرفة أو 
تدريب؛ حيث إنه عادة ما يحدث خلط لدى المستفيدين فى معانى ودلالات 
المعاملين 4١2‏ و 0۸ نظراً لأن لكلا المعاملين معنى مختلف عن المعنى 
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التقليدي المستخدم ودلالته الشائعة» فالمعامل 2 عادة ما يستخدم 
في السياق التقليدي بمعنى إضافة (+) فعلى سبيل المثال عند القول إن 
المستفيد سيجري بحثاً في المحركين and Bing‏ ‰6 تعني آنه سيجري 
الببحث في كليهما. آما المعامل 0۸ فعادة ما يستخدم في السياق العام بمعنى 
أي منهماء فعند القول إن الباحث سيجري بحثا فى ع811 0۲ ماعمه6 فذلك 
ےآ یکی اا کے ی ا وی کے ان اام 6 
تعني البحث في عدد أكبر من محركات البحث من 0۸ وهو عكس مايتم 
تطبيقه في النموذج البوليني. ويوجد العديد من المستفيدين الذين يفكرون 
بنفس المنطق عند قيامهم بإجراء بحث بوليني؛ حيث يستخدمون المعامل 
عند رغبتهم في البحث عن عدد كبير من النتائج» ويستخدمون 0۴ 
لتضييق نطاق البحث. ومن الواضح أن معاملات المنطق البوليني لا تعمل 
بهذهالطريقة» وقديؤدي هذا الخلط بالمستفيدين إلى اختيار المعامل الخطا. 


ومن الملاحظ أن المستفيد عادة ما يجد صعوبة في تركيب المعاملات البولينية 
وترتيبها بصورة صحيحة. فكما سبقت الإشارة إلى أن البحث البوليني المركب 
Compund Boolean Searching‏ یتکون من اکثر من معامل من المعاملات البولينية» 
وأن الترتيب الطبيعي لمعالجة المعاملات البولينية هو كالتالي: 


معالجة المعامل N01‏ أولاً. 
ثم يأتي المعامل ۸١‏ ثانياً في الترتيب. 


وأخيراً تتم معالجة المعامل 0۴. 


وفي كثير من الأحيان يمكن استخدام الأقواس لتحديد شكل الترتيب الطبيعي 
لمعالجة المعاملات البولينية» وعادة مايتم ذلك في العبارات البحثية المعقدة» والتي 
تشتمل على العديد من العلاقات. وقد يختلف الترتيب فى هذه الحالة عن الترتيب 
السابق» نظراً لأن الأقواس في هذا الحالة تحدد أولويات المعالجة عند التطبيق. مع 
العلم أن هذا الأسلوب معقد ونادراً ما يستخدم في معالجة الاحتياجات البحثية المعقدة 
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ويتطلب هذا الآسلوب خبرة كبيرة في معالجة المعاملات البولينية وترتيبها والتركيب 
الاصطلاحي للمفاهيم التي تتضمنها العبارة البحثية. بالتالي فإن هذاالأسلوب لايصلح 
للمبتدئين في عمليات البحث أو لغير المتخصصيين في آنظمة البحث والاسترجاع. 
فالتعامل مع القواعد الاصطناعية للترتيب مثل معالجة الأقواس الداخلية (۷ 188 
)AND "ERM OR TERM‏ ليس أمراً سهلاً على المستفيد المبتدئ» ويتطلب تدريبا 
وممارسة وإتقاناً لآليات التركيب الاصطلاحي والبوليني معاً. 


ثانياً: صعوبة الاختزال لكل العلاقات بين المصطلحات 
في ثلاثة أشكال بولينية ثابتة 


من الصعوبات التي تحد من إمكانيات النموذج البوليني عدم القدرة على التعبير 
عن العلاقات غير البولينية بين المصطلحات» مثل العلاقات العرضية اaائة٣‏ 
Relationship‏ وذلك لعدم وجودمعامل يحقق تلك النوعية من العلاقات کش النموذج 
البولينى. نفترض أن أحد المستفيدين يبحث عن معلومات عن تطبيق الحاسب الآلى 
في التعليم .»Application of Computer in Education‏ فعند استخدام المعامل AND‏ 
للربط بين المفاهيم المتنوعة وماينتج عنها من استفسارات تكون العبارة البحثية في 
صورتها البسيطة كالتlلئي: Computer and Education‏ 


ومن الصعب أن يتم تمثيل المصطلح iationاApp‏ لأنه كلمة عامة مثل مقدمة 
..Genral Overview ةمle ةرJ¡ig Introducation‏ الخ في بناء العبارة البحثية» ومن 
المفترض أن يتم التعبير عن هذه النوعية من المصطلحات بمعاملات تشملهاء إلا أن 
التموذج البوليني قاصر عن توقير هذه النوعية من المعاملات التي تمكن المستفيد 
من تضمين هذه النوعية من المصطلحات في عملية البحث. لذلك تقتصر الصيغة 
البحثية على Computer AND Educa10٩‏ مع ذلك فإن النتائج المسترجعة لهذه 
النوعية من الاستفسارات لن تقتصر فقط على معلومات عن استخدام الحاسب 
الالي في التعليم» لکن ستشمل Lal‏ معلومات عن تعليم الحاسب اللي Computer‏ 
Education‏ وهو موضوع خارج نطاق اهتمام المستفيد في هذه الحالة» مايجعل 
بعض النتائج المسترجعة تعالج مفاهيم ليس لهاعلاقة باحتياج المستفيد الأصلي 
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وتكون مضللة ومضيعة لوقت المستفيد الذي سيقضيه في فلترتها واستبعادها. وعلى 
ذلك فالنموذج البوليني يختزل كل العلاقات بين المفاهيم والمصطلحات في ثلاث 
معاملات بولينية يتم توظيفها للتعبير عن كل العلاقات والربط بين المفاهيم التي 
يتضمنها الاستفسار. من ثم يمكن القول إنه بصفة عامة كلما كانت العبارة البحثية 
معقدة» دى ذلك إلى صعوبة تفسيرها وتمثيلها من خلال العلاقات البولينية» وذلك 
بسبب محدودية النموذج البوليني في التعبير عن العلاقات التي تخرج عن نطاق تلك 
العلاقات البولينية الشلاث. 


ثالثاً: عدم القدرة على وزن المصطلحات 


من القيود التي يفرضها النموذج البوليني في البحث والاسترجاع آنه لا يتيح 
تمكن المستفيد من تحديد الأهمية النسبية للمفاهيم والمصطلحات التي يتضمنها 
الاستفسار» حيث يفترض النموذج البوليني أن كل المفاهيم أو المصطلحات الواردة في 
الاستفسار لها نفس الأهمية النسبية» وهو بالطبع أمر غير صحيح في معظم الأحيان. 
فعلى سبيل المثال» نفترض أن المستفيد يبحث عن موضوع إتاحة المعلومات والأمن 
[n f0rmation Access ND Security‏ وأن المستفيد يرغب فى التركيز بصورة أكبر 
على موضوع المن» أو بعبارة أخرى أن المستفيد يرغب في الحصول على معلومات 
عن معالجة قضية الأمن في إتاحة المعلومات وليس معالجة الموضوعين بنفس 
الدرجة من الأهمية. فوفقا للنموذج البوليني في استرجاع المعلومات لن تتحقق 


رابعاً: القصور في التعبير عن الصلاحية وترتيب النتائج 
النموذج البوليني المواد إلى فتتين أساسيتين عند الاسترجاع هما: 
- صالحة: أي يو جد مضاهاة تامة بين استفسار المستفيد وبديل الوثيقة (التسجيلة 
الببليوجرافية). 
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- غير صالحة: بمعنى عدم وجود مضاهاة بين استفسار المستفيد وبديل الوثيقة. 


لذلك» فإن النموذج البوليني لا يتيح آلية لترتيب النتائج» ما يمكن المستفيد من 
تحديد أفضل 15 وثيقة مثلاً ضمن المواد المسترجعة مع ترتيبها وفقا للأهمية النسبية. 
بالتالي يضطر المستفيد إلى فحص كل النتائج بنفس ترتيب استرجاعها والتي عادة 
ما تصل إلى بضعة آلاف. وتجدر اللإشارة إلى أنه عادة مايكون بعيداعن الترتيب 
وفقاً للصلاحية النسبية ويستخدم نماذج عامة للفرز مشل الترتيب الهجائي أو الزمني. 
بالتالي لا يستطيع المستفيد التحكم في حجم المواد التي يفحصهاوفقا لمستوى 
الآهمية مقارنة بعدد النتائج المسترجعة. 


خامسا: الصفرية في مقابل الفيضان 


قد يحصل المستفيدون على نتائج صفرية امOut Nu11‏ أو فيضان من النتائج 
Output Overl024‏ عند إجراء الببحث البولينى. وعادة ما تظهر النتائج الصفرية 
عفدا كوف الا سار م ارج اقحات ولك عند ارط ن غدو من 
المصطلحات باستخدام المعامل 4۸2. ومن ناحية آخرى يحدث فيضان النتائج 
دما بون السار عانا وواسعا ندرجة كير غادة ما يحلاة فيضان النتائج 
عندما يتم الربط بين المصطلحات باستخدام المعامل 0۸. ويمكن للمستفيد في هذه 
الحالات أن يقوم بتعديل الاستفسار لزيادة أو تقليل عدد النتائج المسترجعة» إلا أن 
ذلك قد يؤدي إلى أن تكون النتائج المسترجعة غير مطابقة لما يببحث عنه المستفيد 
من البداية» وتقتصر فقط على نتائج الاستفسار المعدل. 

وللتغلب على المشكلات والقيود التي يفرضها النموذج البوليني» اقترح كوبر 
)1988 )ل ) بعض الحلول الممكنة مثل: 

- إعداد استفسارات حرة خالية من المعاملات البولينية للتخلص من عيوب 


الاستفسارات البولينية. ومن الآليات المميزة لهذا المقترح تطبيق بعض 
الأنظمة لنماذج اح «Search Forms‏ ولم يح ظ هذا المقترح بالقبول 


والتوسع في تطبيقه حتى منتصف التسعينات من القرن الماضي. 
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ب كماتم تطوير عدد من الخوارزميات والنماذج الجديدة لاسترجاع المعلومات 
لتيسير عمليات ترتيب النتائج ووزن المصطلحات.. الخ. وعلى الرغم من 
كفاءة هذه النماذج من الناحية النظرية إلا أنهالم تحقق نجاحا ملحوظأ عند 
تطبيقها في أنظمة استر جاع المعلومات البولينية (63 .ص ,1997 ,مع4٣۴إ0هK).‏ 


4 3 نموذج الفراغ الاتجاهي 
Vector Space Model‏ 

يعد مجال الفراغ الاتجاهي أحدفروع علم الهندسة الفراغية والذي تم تطبيقه 
بكثافة في الجبر الخطي. ويشير إلى مجموعة من الأسهم التي يتم تجميعها لتكون 
فراغا بحيث يمكن جمعها مع بعضها بعضا وضربها بأعداد في هذا الفراغ. فعندما يتم 
تطبيق عمليات الجمع والضرب القياسي وبعض العمليات الأخرى على المتجهات 
(الأسهم) فإننانصل لوصف كائن رياضي يطلق عليه فضاء اتجاهي. 

يوضح المشال السابق نموذجا لمعالجة مفهوم الفراغ الاتجاهي؛ فإذا كان لدينا 
ثلائة سهم يطلق عليها متجهات تم تجميعها كما في الشكل» فإنه يمكن جمع 
وضرب الأسهم (المتجهات) في كميات قياسية للسهم ۷ (باللون الأزرق) أضيف 


Vv vV+w 


⁄ سے‎ V+2۰W 


2۰W 


(Sparck Jones & Wille, 1997) وطريقة قياسه‎ 
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إلى السهم « (باللون الأحمرء في أعلى الشكل)» وفي أسفله ۷ ضربت في معامل 
مساو ل 2 ما أعطى المجموع 2*W‏ + ۷. 

وقد تم تطوير نموذج الفراغ الاتجاهي والذي يطلق عليه أيضاً معالجة المتجهات 
Î Vector Processing‏ ناتج استر جاع المتجھاٽ Vector Product Retreival‏ على يد 
سالتون وزملائه 1ه ٤.‏ ,١٥اه5.»‏ الذين قاموا ببناء نظام معالجة واسترجاع النصوص 
gy «System for the Manipulation and Retrieval of Texts (SMART)‏ الذي تم 
تو ظیفه في سلسلة من بحوث وتجارب استرجاع المعلومات (1968 .)S1t0,‏ وفي 
إطار عمليات تطبيق نظام 1 3 في بحوث ودراسات استرجاع المعلومات تم 
تطوير مجموعة من الآليات الجديدة في مجال استرجاع المعلومات في ذلك الوقت 
منها: وزن المصطلحات ع٣‏ ناآعiءW erm‏ والمخر جات |المرıöiة .Ranked Output‏ 


ويعد نموذج الفراغ الاتجاهي النموذج الثاني من حيث أقدمية التطبيق ومن حيث 
الآهمية بعد النموذج البوليني في رحلة تطوير نماذج استرجاع المعلومات التي تعمل 
في البيئات التشغيلية )1997 .(Sparck Jones & Wi11et,‏ 

ويتم التعبير عن كل مصطلح في نموذج الفراغ الاتجاهي على أنه پد «Dimension‏ 
وعن الاستفسار على آنه متجه أو سهم ٥)0۲‏ ۷6. ویتکون المُتجه من قيم أو درجات تعبر 
عن مجموعة المصطلحات المستخدمة فى تمثيل الاستفسار أو الوثيقة» ويمكن أن تكون 
تلك القيم ثنائية 811۵۲7 أو موزونة Weichted‏ في حالة القيم الثنائية يستخدم المعاملان 
(0.1) لتمثيل مدى ظهور المصطلح في المادة» وفي حالة القيم الموزونة تستخدم أرقام 
موجبة مثل (1.5, 0.3, 2.4, 5.9..١۲ء).‏ وتشير القيم الموزونة التي تستخدم للمصطلحات 
في الدلالة على الأهمية النسبية للمصطلح في تمثيل المادة (2007 ,i)ياة»هK).‏ وقد 
حدد کروفهاج 199 )Korhge,‏ طریقتین لوزن الہمصطلحات ھما: 

٠‏ خوارزميات موضوعية ١۷ء‏ زط0 لوزن المصطلحات مثل تردد المصطلحات 

أو حجم الوثيقة. 


١‏ خوارزميات غير موضوعية ٤۷ناءهزطاS‏ مشل استخدام أآحكام المستفيدين 
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se Preception‏ وقد سبق مناقشة العديد من طرق وزن المصطلحات والتى 
تمه فابلة ايق من الايا الطرية في تمر اقرا الاتجاهيء: - 
٠‏ وتتميز كل خوارزمية من خوارزميات وزن المصطلحات بمجموعة من المزايا 
کما أن لکل منها عیوبها ومشکلاتها. وقد ناقش کورفهاج (1997 ,eع0۲۴41)‏ 
بالتفصيل طرق التمثيل في كل من النوعين السابقين ومزايا وعيوب كل منهما 
عند تطبيقهما في تخصيص ووزن المصطلحات في المتجه. 
ويتم التعبير عن العلاقة في نموذج الفضاء الاتجاهي بأنه عبارة عن عدد الأبعاد 
Number of Dimension‏ ف الاستفسار أو الوثيقة والتي تعادل عدد المصطلحات 
المستخدمة في تمثيل المادة. وتتكون كل المتجهات (الأسهم) بالاستفسارات أو 
الوثائق من فضاء متعدد الاتجاهات. ويتم وصف موضع الاستفسار أو الوثيقة الس 
تمثله في الفضاء من خلال قياس إجمالي حزمة القيم المستخدمة في الدلالة على 
المصطلحات في المتجه أو .(Sparck Jones & Willett, 1997) pl‏ 


ويتم تمثيل عملية إجراء الببحث في نظم استرجاع المعلومات التي تعتمد على 
نموذج الفراغ الاتجاهي من خلال فحص المسافة» والتي تظهر في صورة متجه 
(سهم)» بين متجه الاستفسار والوثيقة في الفراغ الاتجاهي. ويتم في هذا النظام 
الحكم على درجة التشابه بين أي وثيقتين في النظام من خلال مقارنة درجة الأبعاد 
الممثلة ومن خلال حساب مقياس التشابه على آنه معامل التشابه أو الارتباط ع«iوو٣C‏ 
.ef ficient‏ فإذا كان الاستفسار والوثيقة يعبران عن مفهوم متشابه فإن الزاوية التي 
بين الأسهم أو المتجهات تكون صغيرة» أما إذا كانا يتناولان مفهومين مختلفين فإن 
الزاوية بين الأسهم أو المتجهات تكون كبيرة (1997 ,یع]). من ثم يمكن بنفس 
الطريقة قياس التشابه بين الوثائثق. 


أوضح سبارك جونز وویلیت (1997 )Sparck Jones & ¡11 e),‏ المزایا التي 
يتمتع بها نموذج الفراغ الاتجاهي» ونه يتيح لأنظمة استرجاع المعلومات أساساً 
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قوياً لعمليات التكشيف وتو ظيف الصلاحية المرتدة Relevance Feedback)‏ وتصنیف 
الوثائق. فعند المقارنة بين نموذج الفراغ الاتجاهي والنموذج البوليني تتضح مزايا 
مناقشاتها في نموذج | لمنطر البولينى. ويمكر إجمال هذه المزايا فيما يلى: 


أولاً: إجراء اإبحث 


لم يعد المستفيد بحاجة إلى فهم وتطبيق المعاملات البولينية المعقدة والتي تسبب 
له إرباكاً في كثير من الأحيان» عند إجراء البحث في نظم استرجاع المعلومات التي 
تعتمد على نموذج الفراغ الاتجاهي. فكل ما يحتاج إليه المستفيد عند التعامل مع 
نموذج الفراغ الاتجاهي هو اختيار مجموعة المصطلحات التي تلائم احتياجاته 
المعلوم اة اقا عة إجراء الح 

تانيا: وزن المصطلحات 


يتيح نموذج الفراغ الاتجاهي إمكانية وزن المصطلحات التي تعبر عن المفاهيم 
والمصطلحات التى تمثل الاستفسارات والوثائق» مايساعد على تحديد الأهمية النسبية 
لطا في الر ن الاق ب واه فاي سيل الال اكان بى المد ادر 
عن امن الشبکات Networks Sert‏ فإنه يستطيع أن يخصص e‏ أكبر للمصطلح 
آمن Sct‏ عن المصطلح شبکات ء)ءەسامN‏ بالتالي لا تتم معالجة المصطلحين 
بالدرجة نفسها من الأهمية عند التكشيف والاسترجاع. من ثم فنموذج الفراغ الاتجاهي 
تيح إمكانية تخصيص وزن للمصطلحات مايساعد على تمثيل الاستفسار أو الوثيقة 
بدقة أكبر من حيث الأهمية النسبية للمعالجة التي يتناولها أي منهما. 


يتيح نموذج الفراغ الاتجاهي إمكانية ترتيب نتائج البحث ترتيباً تنازلياً وفقاً لصلاحية 
تلك النتائج لاستفسار المستفيد بحيث تأتي الوثائق الأكثر صلاحية على قمة قائمة 


النتائج المسترجعة. ويعبر النموذج عن درجة التشابه $0٣۴‏ لانعاهنه ذ8 بين الوثائق 
والاستفسارات باستخدام مقياس درجات ءاهء5 من (0 إلى 1)» حيث تحصل الوثائق 
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الصالحة كليأعلى درجة (1) ثم تحصل الوثائق ق الأقل صلاحية نسبياً على درجات 
E .0.7 ,0.8 ,0.9‏ 
SE a e e‏ 
الفراغ الاتجاهي يتيح إمكانية ترتيب الوثائق تى بناء على درجة مقياس التشابه. بالتالي 
ك O IS‏ 
E TS‏ 
المجموعة التي قام بفحصها. وتجدر الإشارة إلى أن إمكانية تحديد عدد الوثائق التي 
يتم فحصها من مجموعة النتائج المسترجعة يعد تطوراً مهما لخدمة المستفيدين من 
نظم استرجاع المعلومات التي تعتمد على هذا النموذج» حيث توفر تلك الميزة وقت 
وجهد المستفيدء نظراً لأنه لن يحتاج إلى استعراض وفحص كل الوثائق المسترجعة 
كماهي الحال في النموذج البولينيء مع العلم أن عدد النتائج المسترجعة قد يصل إلى 
آلاف وأحياناً مغات الآلاف من الوثائق مايتعذر معه فحصها بالكامل. 


رابعاً: التغذية الراجعة للصlاحية Relevance Feedback‏ 


يعتمد نموذج الفراغ الاتجاهي على تطبيق مبداً صلاحية التغذية الراجعة في تحسين 
a‏ النتائج التي تم استرجاعها وعرضها 
مسبقاء يقوم النظام بتخزين ردود أفعال المستفيدين عند التعامل مع نتائج البحث» 
N N Ty‏ 
le NCE ES‏ 
الخاصية أو الميزة بوضوح في نظم استرجاع الإنترنت (محركات البحث) في خاصية 
نتائج nشqılة .More Like This and More Similar Results‏ 
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الملامح ونقاط القوة التي تساعد في التغلب على مشكلات النموذج البوليني» إلا 
أن هذا النموذج لا يخلو أيضاً من بعض المشكلات التي تواجه أنظمة استرجاع 
المعلومات عند تطبيقه. 


9.3.2 عيوب نموذج الفضاء الاتجاهي 
يعتمد نموذج الفضاء الاتجاهي على مبداً أساسي في بنائه هو إمكانية وزن 
المصطلحات من خلال حساب قيمتها في فضاء المصطلحات المستخدمة في 
النظام» ورغم جدارة هذا المبدا والمزايا المتعددة التي يتمتع بهاء إلا آنه دى إلى 
أولاً: افتراض استقلالية المصطلحات 


يفترض نموذج الفضاء الاتجاهي أن المصطلحات التي يتم اختيارها في عمليات 
التمثيل مستقلة عن بعضها البعض» وهذه الفرضية تعد من هم عيوب هذا النموذج. 
فقد سبقت الإشارة إلى أن من أهم عيوب النموذج البوليني أنه لا يستطيع التعبير 
عن العلاقات خارج نطاق العلاقات البولينية. وقد كان من المتوقع أن يقوم نموذج 
الفضاء الاتجاهى بتوفير آليات أفضل للتعبير عن العلاقات» إلا أن الحقيقة أن هذا 
النموذج لايوفر آي آلية للتعبير عن العلاقات بين المصطلحات بما فيها العلاقات 
البولينية. وبدلأ من حل مشكلة العلاقات القاصرة بالنموذج البوليني وضع فرضية 
آن المصطلحات التي يتم توظيفها باستفسارات المستفيدين لإجراء الببحث بنظم 
استرجاع المعلومات التي تعتمد على نموذج الفضاء الاتجاهي مستقلة عن بعضها 
البعض ولا توجد علاقات تربط بينها. 

ومن الواضح أن هذه الفرضية غير دقيقة وتفرض قيوداً غير عملية أثناء عمليات 
التمثيل والبحث. فإذا افترضنا آنه تم اختيار الn.صbطلحiت Automobile, Export,‏ 
1 لوصف متجه ۷٥٥10١‏ لوثيقة معينة» فهل يمكن افتراض أن هذه المصطلحات 
المستخدمة في تمثيل الوثيقة لا يوجدعلاقات بينها. ولكن بالنظر إلى الواقع سنجد أن 
الوثيقة تتعامل مع Automobile Import, Automobile Export, Import and Export‏ 


الفصل التاسع 


eازi Atom‏ 4ه. ويعد افتراض استقلالية المصطلحات من الهم الانتقادات التي 
وجهت إلى نموذج الفضاء الاتجاهي. 
ثانياً: بة تحديد المترادفات أو علاقات | 
يا: صعوبة تحديد المتر ٩‏ لجمل 


من التحديات التي تواجه المستفيد عند استخدام نموذج الفضاء الاتجاهي هو 
R۸‏ لتحدید المترادفات مثل (عb1 )٥۲ 0۸ ۸٤٥٥0‏ كما آنه لا يمكن تطبيق المعامل 
1 لتكوين عبارات بحثية كماهى الحال في gn .Information With Retrieval‏ 
العلم أن في عمليات البحث الحقيقية يحتاج المستفيد إلى التعبير عن المترادفات 
أو العبارات عند تمثيل الاستفسارات أو الوثائق. لذلك نجد أنه من الصعب إجراء 
البحث من دون المعاملات البولينية ومعاملات التجاور في آنظمة استرجاع المعلومات 
التي تعتمد على نموذج الفضاء الاتجاهي عندمايكون هناك حاجة إلى استخدام 
المترادفات وعلاقات الجمل فى التعبير عن محتوى الاستفسارات آو الوثاثق. 


ثالثاً: عدم الموضوعية وتعقيد آليات الوزن 


تعتمد أنظمة استرجاع المعلومات التي تستخدم نموذج الفضاء الاتجاهي على آليات 
معقدة وغير موضوعية لوزن المصطلحات. وتظهر عدم الموضوعية في عمليات وزن 
المصطلحات عندما يطلب من المستفيد تخصيص وزن للمصطلحات وخاصة مصطلحات 
الاستفسار بناءً على رؤيته وأحكامه الشخصية. ويفترض هنا أن يقوم المستفيد بتقدير 
الهمية النسبية للمصطلح الذي سوف يستخدمه وأن يحدد له وزنا نسبيا. بالتالي تظهر 
مشكلة عدم الموضوعية» حيث إن المستفيد في كثير من الأحيان يكون غير قادر على 
إعطاء وزن نسبي دقيتق للمصطلح بالتالي تظهر مشكلة عدم الموضوعية. وعلى الجانب 
الآخر يتضح التعقيد في عمليات الوزن» حيث لا توجد خوارزمية خالية من العيوب 
وأوجه الانتقاد» كما أن الوصول إلى أفضل خوارزمية لبيئة استرجاع المعلومات يعد أمرا 
في غاية الصعوبة أنلم يكن مستحيلاً. فضلاً عن أن قواعد البيانات التي تبنيها أنظمة 
استرجاع المعلومات تتميز بالديناميكية الشديدة» حيث يتم تحديثها بصورة دائمة. بالتالي 
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فإن وزن المصطلحات لا بد أن يتغير ويتم تحديثه بصورة دائمة» لأن معاملات الوزن مثل 
تردد المصطلحات التي تطبقها خوارزميات الوزن تتغير مع تغير تركيبة قاعدة البيانات. 


وقد قدم كوالسكي (2007 ,)اة »هK)‏ عدداً من المسارات التي يمكن اتباعها 
لمعاجة قضية التغير الديناميكى بقواعد البيانات وتأثيره فى خوارزميات الوزن» إلا أنه 
شار إلى أن هذه المسارات سوف يكون لها تأثير واضح في عملية بناء وتطوير نظام 
استرجاع المعلومات من حيث التكلفة والوقت. 


وبعيدأعن أوجه القصور الثلاثة التي تم ذكرها لنموذج الفضاء الاتجاهي» توجد 
بعض الصعوبات الأخرى مثل الحاجة إلى زيادة عدد المصطلحات المستخدمة 
فى تمثيل الأستفسار حتى يتمكن المستفيد من صياغته بدقة» إلى جانب الحاجة 
إلى زبادة عد د المصطلحات الستخدة فى تل الرية أبضا ذلك سی تكن 
النظام من التمييز الدقيق وتحسين أداء الاسترجاع. وذلك مقارنة بالنموذج البوليني 
والربط بينها بالمعاملات البولينية. بالتالي ربمايكون استخدام عدد من اثنين إلى 
ثلاثة مصطلحات عددا كافيا للتعبير عن الاستفسار آو تمثيل الوثبقة والحصول على 
نتائج ذات جودة عالية )259.ص ,1997 .(Sparck Jones & Willett,‏ 

وتجدر اللإشارة إلى أنه كلما زاد عدد المصطلحات التي يتم تعيينها للوثيقة 
أو الاستفسار ارتفعت التكلفة. كما أن هذا النموذج يفتقر إلى المبررات النظرية 
theoretica1 justification‏ فى بعض جوانب معالجة المتجهات (الأسهم) بالنموذج. 
لاستخدامه كنموذج لاسترجاع المعلومات لم يتم وصفه أو تبريره نظرياًء حيث ترك 
تبریره للمستفید (1989 ,١0)ه81).‏ 


الشكل المثالي لهذا النموذج» آنه يضع الوثائق التي بينها علاقة صلاحية لاستفسار 
صلاحية منفصلة ومتباعدة فى الفضاء )1975 .(Salton, Wnag, Wag,‏ ومع ذلك 
فإن مضاهاة الاستفسار بمجموعة مترابطة من الوثائق» والتى يطلق عليهامجموعة 
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الوثائق الافتراضية ازمجnعة Cluster Hypothetical Doucments‏ مر لم يکن من 
الممكن تحقيقه من دون تطبيقات هذا النموذج )1997 .(Sparck Jones & Willett,‏ 


e E 
على الإنترنت» ولم يتم تطبيقه فعلياً في أي بيئة استرجاع معلومات حقيقية قبل ظهور‎ 
أنظمة الاسترجاع في بيئة الويب» حيث اقتصر تطبيقه قبل تلك الأنظمة على التجارب‎ 
المعملية التي تمت على نظام "5148 والذي ساعد على نمو ونضج هذا النموذج‎ 
بصورة كبيرة» كما أن تطوير هذا النموذج ساعد على تطور البحوث والدراسات في‎ 
مجال استرجاع المعلومات بصورة كبيرة.‎ 


9.4 النموذج الاحتمالي 
Probablity Model‏ 


قام کل من مارون وکوهنز (1960 ,sصط×‏ & 1۲0۸) بتطویر النموذج الاحتمالي 
لاسترجاع المعلومات في الستينيات من القرن الماضي» وقام كل من روبرتسون 
وسبازڭ بإجراء تطويرات إضافية على النموذج في السبعينيات (& ١0ء)إمRob‏ 
6 ,چSparce).‏ وقد أوضح كل من سبارm‏ وليت Sparck Jones & Willett,)‏ 
7 أن الفكرة الأساسية التي يستند إليها النموذج الاحتمالي هي: 


«تحاول نظم استرجاع المعلومات التي تعتمد على اللغة الطبيعية» والتي مازالت بعيدة 
عن الدقة» تحقيق معادلة التحديد المؤكد للوثائق الصالحة لاستفسار معين» وحيث أن هذا 
الوضع مضاد تماما لعمليات الاسترجاع التي تحتاج إلى إزالة جميع جوانب الغموض 
لتحقيق هذه المعادلة عند الببحث فى وقواعد البيانات الرقnة Sparck Jones & Willett,)‏ 
9 بالتالي فإنه إذاتم تطبیتق نظرية الاحتمالات والتي يكون فيها الحدث له 
احتمالات تتراوح بدرجة نسبية بين صفر إلى 100 أو (0101) ( عند إجراء البحث». 


بالتالي فإن هذا النموذج يراعي عناصر عدم الیقین ۸٤٣ء1٤‏ رانمزةاءءم لا في 


GC TS 
.)Bookste1٢, 1985( تم استرجاعها لاستفسار معين؟‎ 
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ويحاول النموذج قياس مدى احتمال صلاحية وثيقة معينة لاستفسار معين 
باستخدام مجموعة من الطرق الإحصائية التي يمكن من خلالها قياس الاحتمالات. 
ويطلق على هذه العملية في سياق استرجاع المعلومات احتمال الصلاحية عءط1 
of Relevance‏ ityاProbab‏ بين استفسار ووثيقة. 


وعلى خلاف غيره من نماذج استرجاع المعلومات فإن نموذج الاحتمالات لا 
يعالج الصلاحية على أنها مقياس مضاهاة أو عدم مضاهاة 3)1 -0۲ ٧i-‏ بل يعبر 
ليد اة اختال اة وة مي اسار محلة فغرفى مغلا أن ال ة5 

يعتمد النموذج الاحتمالي على طرق متنوعة لقياس الاحتمالات ومستويات 
الصلاحية الشسبببة بين الوثائق والاستفسارات من خلال حساب معدل التشابه بين 
تردد الکلمات yءہع۹uهء۴۲‏ mإء1.‏ وبصفة عامة يمكن القول إنه فى إطار هذا النموذج 
كلماارتفعت درجة التشابه بين الاستفسار والوثيقة» زادت احتمالات صلاحية الوثيقة 
للاستفسار. ويتم في نظم استرجاع المعلومات التي تعتمد على النموذج الاحتمالي 
تحديد الوثائق التي يتم استرجاعها كنتائج للاستفسارات عندما تحقق تلك الوثائق 
فرضية أساسية تتمثل في أن تكون درجة احتمال تشابه تلك الوثائق أعلى من حد 
معين Specific اhresh 01d‏ فى مستوى الصلاحية )1997 .(Korfhage,‏ 


9.4.1 مزايا النموذج الاحتمالي 


بالمقارنة بالنموذجين السابقين» البوليني والفراغ الاتجاهي» يتميز النموذج 
الأعتمالے بالعزایا الال 

أولا: يوفر القسر ةج الاحتمالى الأساس النظرى للسارسات الى تم اط قها معا 
على ساس تجريبى مثل آليات وزن المصطلحات إلى جانب الإرشادات والإجراءات 
اللازمة لتطبيقها في عمليات استرجاع المعلومات (-348 .صم ,1989 Sato,‏ 


الفصل التاسع 


9. فعادة ما توصف عمليات استرجاع المعلومات بأن لها مستويات عدم يقين 
ainityاUncer‏ متنوعة عند الحكم على علاقة الصلاحية بين الوثائق والاستفسارات» 
من ثم فإن استخدام مبدأً أحتمالات الصلاحية النسبية هو أكثر واقعية في التعبير 
عن صلاحية الوثائق وليس الصلاحية الثابته» إضافة إلى ذلك فإن العمليات الرئيسة 
الخاصة بهذا النموذج مثل قياس التشابه بين الوثيقة والاستفسار يتم تحديدهامن 
خلال النموذج نفسه بدلامن استخدام الأحكام |لأعlıaطuة «Herusitic Judegments‏ 
كماهو الحال في نموذج الفراغ الاتجاهي. 

ثانياً: يفسر النموذج الاحتمالي مبدأ الاستقلالية في علاقات المصطلحات بالوثائق 
مثل علاقة ظهور وثيقة في عملية استرجاع المعلومات وتأثيره في ظهور وثيقة أخرى» 
حيث لم يعد المستفيدون بحاجة إلى افتراض الاستقلالية بين المصطلحات والذي 
يعد افتراضاً غير واقعي عند التطبيق كما هي الحال في نموذج الفراغ الاتجاهي. كما 
أن النموذج يوفر آليات لوزن المصطلحات وتحديد درجة التشابه النسبي بين الوثائق 
والاستفسارات ويمكن المستفيد أبضا من اشتيار الوثائق الأكثر صلاسية. 


ويتيح النموذج إمكانيات ترتيب النتائج المسترجعة وفقاً لصلاحيتها النسبية» حيث 
يفترض النموذج أن الوظيفة الأساسية لنظام استرجاع المعلومات هي مضاهاة الوثائق 
المرتبطة باحتياجات المستفيدين (1997 W11٥),‏ & sعnصہ[‏ arckمS)‏ ویطلق على 
هذا الافتراض مبداً الترتيب الاحتnاıJ Ranking Pribciple‏ ityاProbab.‏ ويساعد مبدأً 
المسترجعة من خلال التعبير عن الوزن والترتيب بصيغ احتمالية. 

ثالغاً: استخدام معلومات التغذية الراجعة )عهط۲۵٥۴‏ #٥«۷4ء!ءR‏ في تطوير طرق 
استرجاع أكثر كفاءة (2007 ,ا)كلهسهK)».‏ هذا إلى جانب قدرته على تحديد مواطن 
بإمكانية الطوير والتحسين الذاتي والذي يعد أحد أهم عناصر القوة في هذا النموذج. 


رابعاً: النموذج الاحتمالي في شكله الأساسي لا يطبق المنطق البوليني الذي 
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يرى كثير من المستفيدين أنه آلية ببحث صعبة التطبيق. ممايجعل من نظم استرجاع 
المعلومات التي تعتمد على النموذج الاحتمالي أكثر صداقة للمستفید ۴۲:۵۸۵1 User‏ 
من نظم استرجاع المعلومات التي تطبق المنطق البوليني. 


9.4.2 عيوب النموذج الاحتمالي 


تم تحديد عيوب النموذج الاحتمالي من أوجه متعددة منذ نشأته وعلى مر مراحل 
تطوره. ويمكن تلخيص هذه العيوب فى العناصر التالية: 
أولا: الصلاحية الثنائية 
على الرغم أن الصلاحية في النموذج الاحتمالي هي عبارة عن قيم متصلة تتراوح 
بين صفر وواحد وليست قيما ثنائية صفر أو واحد» كما هي الحال في النموذج 
البوليني» فإن النموذج الاحتمالي يفترض أن الصلاحية لها قيم ثنائية وهي كالتالي: 
Pr (nonrel) = Pr (rel)‏ 
وتشير المعادلة إلى أن احتمال الصلاحة (۵1) ۶ تساوي احتمال عدم الصںا~>ية Pr (nonrel)‏ 


بمعنى آخر» أن قيم احتمال عدم الصلاحية ثابتة بمجرد حساب احتمال الصلاحية 
أو الوثيقة لديها فرصتان هما أن تكون ضمن المجموعة الصالحة أو أن تكون ضمن 
المجموعة غير الصالحة. وذلك يلغي مبدأعدم اليقين في عملية استرجاع المعلومات. 
وقد أوضح روبرتسون (1976 ,”۲080ء ط0 8) أن القيم الثنائية لها مزايا متعددة» ألا 
نها بالتأكيد ليست دقيقة بشكل عام أو كل الحالات. 

ثانياً: تحسين نتائج الاسترجاع 

لم تظهر فروق كبيرة في مستوى جودة النتائج المسترجعة من خلال النموذج 
اللاحتمالي » حيث لم يستطع تحسين كفاءة الاسترجاع بدرجة ملحوظة. فالنتائج 
التي يتم الحصول عليها من النموذج الاحتمالي رغم جودة عرضهاء إلا آنها ليست 
أفضل من نتائج الاسترجاع في كل من النموذج البوليني ونموذج الفراغ الاتجاهي. 


الفصل التاسع 


وهنايظهر سؤال مهم هو: هل هناك حاجة إلى نماذج استرجاع معلومات جديدة في 
الوقت الذي تعمل فيه النماذج الحالية بدرجات متكافشة إلى حد كبير؟ 


وإلى جانب العيبين السابقين توجد بعض الأمور التي تحد من تطبيق هذا النموذج منها: 

صعوبة التطبيق: وترجع صعوبة التطبيق إلى أنه نموذج معقد حسابياً ويتطلب 
عمليات حسابية مكثة مكثفة» مما يجعل فهمه نظرياً يحتاج إلى ڌ تطبيق آليات حسابية 
متنوعة تعتمد على نظرية الاحتمالات. 


التنوع: يوجد للنموذج الاحتمالي شكال متنوعة في المعالجات الحسابية ولا 
يوجد اتفاق بين المتخصصين على الطريقة المثلى للمعالجة الرياضية بين المهتمين 
به على الرغم من الاأتفاق حول المبادئ الرئيسة للنموذح (1985 ,١1ءاء0kهB).‏ 


ندرة التطبيقات: كما هي الحال في نموذج الفراغ الاتجاهي فإن التموذج 
الاحتمالي لم يكن له تطبيقات حقيقية حتى ظهور نظم استرجاع المعلومات من 
الإأنترنت» حيث اقتصر قبل ظهور تلك النظم على التجارب في البيئات المعملية. 


9.5 التوسع في طرق استرجاع المعلومات 


وضعت النماذج الثلاثة (البوليني والفراغ الاتجاهي والاحتمالي) التي تمت مناقشتها 
في هذا الفصل المنهجيات والقواعد الأساسية لاسترجاع المعلومات. ونتيجة لأثر تلك 
النماذج في البحث والتطبيق تم تطوير مجموعة من النماذج الجديدة التي توسعت للنماذج 
الثلاثة السابقة. فعلى سبيل المثال تم تطوير النموذج البوليني الموسع كامتداد لكل من 
النموذج البوليني ونموذج الفراغ الأتجاهي. كماتم وضع نموذج المجموعة الغامضة 
ا و۴22 بالاعتماد على النموذج البوليني في بنيته الأساسية وباستخدام نظرية المجموعة 
Se "he0‏ مط وتطبيقها لأول مرة في مجال استرجاع المعلومات. كما أن نموذج تكشيف 
الدلالات الكامنة ع١1‏ ×eہ! [tent Seman)‏ مشتق من نموذج الفراغ الاتجاهي» كماتم 
تطوير نموذج شبكة الاستدلال )اسا مء«عءءام1 بالاعتماد على التوسع في النموذج 
الاحتمالي وآليات ترتيب النتائج ترتيبا احتماليا تنازليا بحيث تلبي احتياجات المستفيدين 
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بدا احتمالية صلاحيتها لاحتياجاته والذي سد اسان النموذج الاحتمالي ()ءإهم؟ 
.)J0nes & Wile, 7‏ ويمكن التعرف إلى تفاصيل كاملة عن التوسعات التي جرت 
لنماذج استرجاع المعلومات فى التقسيم الففوي لنظم استرجاع المعلومات الذي قدمه 
.(Baez - Yates & Ribeiro — Neto, 1999)‏ وسوف تتم فيمايلى مناقشة اثنين من هذه 


> 9.5.1 النموذج البوليني الموسع 


Extended Boolean Model 


سبقت الإشارة إلى أن من هم عيوب النموذج البوليني عدم القدرة على وزن 
المصطلحات» كما أن من عيوب نموذج الفراغ الاتجاهي عدم توافر آلية للتعبير 
عن العلاقات البو ليبة. وللفغلب على هاتين المشكلعن اللتبن تحذان من إمكائبات 
النموذجين تم تطوير النموذج البوليني الموسع لكي يوفر إمكانات لوزن المصطلحات 
والتعبير عن العلاقات البولينيةء والذي يعد دمجا بين مزايا النموذجين معا. وتجدر 
الإشارة إلى أن العديد من الباحثين قاموا بالعديد من المحاولات لبناء هذاالنموذج 
ومنهم بوکستین (1978 ,«1عاء)ه‌ه8)» ویعد هاری اوو (۷1 ل۲۲ة8) آول من قدم 
مفهوم النموذج البوليني الموسع في رسالته للدكتورة التي كانت تحت اشراف 
جیرارد سالتون (۸٥1۾؟ ٥۲۵۲۵‏ 6). وقد استعرض فيها آليات عمل هذا النموذج 
والخوارزميات المقترحة لتنفيذە )1983 .(Salton, Fox, & WU, 1983; WU,‏ 


ويتم في النموذج الموسع تخصيص وزن للمصطلحات باستخدام مزج من 
المعاملات التالية: 

Proximity التقارب‎ _ 

Location الموقع‎ 2 

Frequency aaرill‎ - 


Precieved Relevance الصااحية |nlتو عة‎ _- 


الفصل التاسع 


ويمكن من خلال هذا النموذج ترتيب النتائج بالاعتماد على إمكانات الوزن 
النسبي من ثم يمكن التحكم في عدد الوثائق التي يتم استرجاعها لكل استفسار. 
يضاف إلى ذلك المحافظة على إمكانات بناء العلاقات البولينية بين المصطلحات. 
وعلى الرغم من مزاياه السابقة إلا أن النموذج الوليني لم يتم تطبيقه بتوسع في أنظمة 
استرجاع المعلومات المستخدمة بقواعد البيانات الببليوجرافية للأسباب التالية: 


أولاً: صعوبة تعيين وزن للمصطلحات بكفاءة ودقة بسبب العيوب نفسها التي تم 
ذكرهافي نموذج الفراغ الاتجاهي. 

ثانياً: فشل النموذج في استرجاع العدد نفسه من النتائج مع الاستفسارات المتساوية 
من ناحية بنية العلاقات البولينية عند تخصيص أوزان مختافة لمصطلحات الاستفسار 
(1997 ,#عطه؟اK).‏ فمن الطبيعي أن يتم استرجاع عدد أكبر من الوثائق للمصطلحات 
التي لهاوزن نسبي مرتفع والذي يراه البعض نتيجة غير منطقية حيث إن عدد الوثائق 
الصالحة ثابت ويجب ألا يتغير ومايتغير هو ترتيبها وفقا للوزن النسبي للمصطلحات. 
الفراغ الاتجاهى اغد العديد من محرکات اللبحث على الاستفادة من راتا 
النموذجين» وقامت العديد من المحركات بتطبيقه فى بحث الإنترنت ومنهامحرك 


9.5.2 نموذج المجموعة الضبابية 
Fuzzy Set Model‏ 
يعد الأذربيجاني لطفي زاده أول من قدم هذا النموذج في مجال استرجاع 
المعلومات في عام 1965 (1965 ,1لة2) بغخرض التغلب على عيوب النموذج 
البوليني من خلال استخدام آليات التعبير عن الصلاحية الجزئıة Partial Relevancy‏ 
لنتائج الببحث وذلك من خلال تطبيق مبادئ نظرية المجموعة إهإء1ط1 امS؟.‏ 


في هذه النظرية يتم التعبير عن المادة على آنها إما ضمن مجموعة أو ليست ضمن 
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مجموعة» كما أن الوثيقة إما أن تكون صالحة أو غير صالحة لاستفسار معين» كماهي 
الحال في النموذج البوليني. ويساعد ذلك على وضع حدود فاصلة بين أأعضاء المجموعة 
وغير الأعضاء بالمجموعة أو الوثائق الصالحة والوثائق غير الصالحة. إلا أن هذا الخط 
الحاد الفاصل بين الوثائق الصاحة وغير الصالحة غير موجود فعلياًفي مجال استرجاع 
المعلو ماك طعا لان الاظمة وغالا الفسغيدين ل مهدا دة تح يدها إا اة 
الوثيقة صالحة لاستفسار معين أم لا (1997 ,طه؟إهK).‏ لذلك تعد الصلاحية الجزئية 
انعكاساً أو تعبيراً أكثر دقة للتغلب على هذه المشكلة وإصدار أحكام واقعية. 


وقد أطلق على الصلاحية الجزئية التي تم تطبيقها لتحسين إمكانيات النموذج 
البوليني نظرية المجموعة الضبابية. ويفترض هذا النموذج أن الوثائق والاستفسارات 
الضبابية هي الأساس في استرجاع المعلومات لذلك لا بد من وضع آلية لإصدار 
أحكام ضبابية بشأنها. ويعتمد هذاالنموذج على تحديد مدى عضوية المادة ضمن 
المجموعة في مدى بين الدرجتين صفر إلى واحد» حيث يشير واحد إلى العضوية 
ا اا رار ا لذلك فالحدود 
التي تفصل بين الأعضاء وغير الأعضاء تصبح ضبابية ويحددهامستوى ودرجة 
العلاقة داخل المجموعة. 


فعلى سبيل المثال يمكن تحديد مجموعة الطلاب المتميزين من بين كل الطلاب 
بطریقتین اساسیقين هما 

الأولى: تطبيق الطريقة التقليدية والتي يتم فيها تحديد مجموعة الطلبة الأوئل 
الذين حصلواعلى أعلى متوسط درجات من بين المجموعة الكاملة» فمثلا يتم 
تحديد الطلاب الذي حصلواعلى متوسط أعلى من 3.9 كمتوسط درجات» وأي 
طالب يحقق هذه الدرجة يدخل ضمن مجموعة المكرمين» في حين أن آي طالب 
يحصل على درجة أقل من 3.9 فلن يكون ضمن مجموعة المكرمين. ذلك على 
الرغم أن بعض الطلاب قد حصلوا على متوسط درجات 3.89 والفرق بينهم وبين 
المجموعة الأولى غير ملحوظ. 


الثانية: تعتمد على تحديد طلاب المجموعة على أساس الدرجة التي يحصلون 
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عليهاء فالطلبة الذين يحصلون على درجة 3.9 أو أكثر مثلاً يحصلون على عضوية 
كاملة تعادل الدرجة (0.91)» بينما يحظى الطلبة الذين يحصلون على درجة أقل 
من 3.5 - 3.9 بعضوية جزئية» والمجموعة التي تحصل على درجة أقل من 3.5 
على عضوية قريبة من الصفر» من ثم يتحدد مستوى العضوية بناء على مدى قربه 
أو بعده من الدرجة 1.0» بحيث يحظى الطالب الذي حصل على درجة 3.8 مثلاً 
بعضوية تعادل 0.8 بالتالى ويستبعد الطلبة الذين حصلواعلى عضوية أقل من 3.5 
رق واا ت یی ا 

وعند تطبيق نظرية المجموعة الضبابية في استرجاع المعلومات فإن حكم الصلاحية 
على الوثيقة لايعتمد على مقياس ثنائي بأن الوثيقة صالحة أو غير صالحة» كما هي 
الحال في النموذج البوليني. فبدلاً من تطبيق مقياس ثنائي يتم تطبيق مستوى عضوية 
لمجموعة الوثائق على ساس مدى قرب الوثيقة من مستوى الصلاحية. ويتم تحديد 
مستوى صلاحية الوثيقة بالمجموعة الضباية أثناء عملية التكشيف (1985 ,”1ع)ء)0ه8). 


ومن أهم مزايا نموذج المجموعة الضبابية أنه يتيح إمكانية تحديد مستويات صلاحية 
للوثائق» بحيث يتيح الوصول إلى الوثائق ذات الصلاحية الجزئية» مما يتيح للنموذج 
ترتيب النتائج ترتيبا تنازلياً وفقاً لمدى عضويتها بالمجموعة» ومستوى صلاحيتها. 
بالتالي يتمكن المستفيد من اختيار وعرض التتائج الأكثشر صلاحية والتي تظهر في 
قمة قائمة التتائج. إضافة إلى ذلك يحافظ هذا النموذج على إمكانية بناء العلاقات 
البولينية بين المصطلحات. بالتالي تتميز نظم استرجاع المعلومات التي تطبق نموذج 
المجموعة الضبابية بإمكانيات الأسترجاع الاكتشافي ۷1ء !٣)ءR‏ yإ0eءء¡D.‏ 


ومع ذلك لا يتيح نموذج المجموعة الضبابية المرونة الكافية التي تسمح بتعيين 
وزن لمصطلحات الاستفسار فى مقابل مصطلحات الوثيقة» حيث تعتمد درجة 
ارمام ار ا غاي الدر الي قحل علا آنا اف ف و راع 
مصطلحات الاستفسار (1989 .)Sa1t0n,‏ وتتضح عدم المرونة في نموذج المجموعة 
الضبابية عند التعامل مع العلاقات البولينية وعدم وزن مصطلحات الاستفسار عند 
تطبيق المعامل 0۸ للتعبير عن العلاقة بين ثلاثة مصطلحات OR 8 OR ٥(‏ ۸) 
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فالنموذج في هذه الحالة سوف يسترجع الوثائق 02 ,21.. الخ» ويعطي الوثيقة 51 
التي تشتمل على المصطلح ۸ فقط الدرجة نفسها التي تحصل عليها الوثيقة 2 التي 
تشتمل على المصطلحات الثلاثة ٥‏ 0۸ 8 0۸ ۸ وذلك لعدم قدرة النموذج على 
وزن مصطلحات الاستفسار. ومن الواضح في هذه الحالة أن درجة صلاحية الوثيقة 
1 تم الحكم عليها من مصطلح واحد فقط هو المصطلح ۸ كنتيجة لحقيقة أن 
مصطلحات الاستفسار لا يتم وزنهافي هذاالنموذج. 

كذلك الحال عند تطبيق المعامل 4۸2 فعند الببحث عن المصطلحات (۸۸(2 ۸ 
)8B ND >‏ فإن الوثيقة 1 التى تشتمل على المصطلحین 8 ۸۸2 ۸ لن يسترجعها 
JES ND E E ee‏ 
على المصطلح 4 فقط أو الوثائق التي تشتمل على مترادفات لهذه المصطلحات. 
إضافة إلى ذلك فإنه عند مقارنة نموذج المجموعة الضبابية بنموذج الفراغ الاتجاهي» 
فإن نموذج المجموعة الضبابية لا يتيح أي آلية لتوسيع الاستفسارات. وعلى عكس 
النموذج الاحتمالي فإن نموذج المجموعة الضبابية ليس بمستوى النموذج الاحتمالي 
من ناحية قوة الأساس النظري» لذلك لم يحظ هذا النموذج بتطبيقات كاملة وقد تم 
تطبيقه بصورة متقطعة في بعض النظم المحدودة لأغراض التجربة والاختبار. 


9.6 نماذج أخرى لاسترجاع المعلومات 


تمت الإشارة في بداية هذا الفصل إلى أن نماذج الاسترجاع التي تم استعراضها 
هي وامتداداتها كلها نماذج تم تطبيقها في أنظمة استرجاع معلومات بصورة أو بأخرى» 
وإضافة إلى هذه النماذج توجد مجموعة أخرى من نماذج استرجاع المعلومات التي 
تم تطويرها تعتمد على آليات التفاعل بين المستفيد والنظام ولعل أبرزها مجموعة 
النماذج المعرفية 1sءلN‏ مi)ivرعد‏ الذي يعتمد على العوامل الخاصة بالمستفيد 
se ۴ ‰5‏ في استرجاع المعلومات. وقد تمت الإشارة إلى أن هذه النوعية من 
النماذج لن يتم مناقشاتها في هذا الكتاب. وسيتم فيمايلي عرض ملخص عام 
للملامح الرئيسة للنماذج الثلاثة التي تم استعراضها في هذا الفصل. 
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9.7 ملخص عام لنماذج استرجاع المعلومات 

يستعرض الجدول التالي الملامح الرئيسة للنماذج الثلاثة حيث يقارن بين تلك 
النماذج من خمس زوايا أساسية هي: 

1. دعم المنطق البوليني 

2 التعامل مع وزن الصطلحات 

3. دعم ترتيب النتائج 

4. معابير المضاهاة المطبقة بالنموذج (تحديد مدى التشابه بين الاستفسارات والوثائق). 

5 ملامح إضافية مميزة. 

ومن الملاحظ أن هذه الملامح الخمسة تعبر بشكل عام عن معايير الحكم على 
نقاط القوة والضعف في نماذج استرجاع المعلومات. فعلى سبيل المثال» يشير 
الملمح الخاص بدعم النموذج للمنطق البوليني إلى قدرة النظام وتمكين المستفيد 
من هيكلة الاستفسارات وبناء العلاقات بين المصطلحات. وعلى الجانب الآخر 
للميزة نفسها والمتعلقة بدعم المنطق البوليني فإنها تؤدي إلى فقدان النظام لميزة 


جدول (9.1) يلخص النماذج العامة لاسترجاع المعلومات ومزاياها وعيوبها: 


الملامح ٠‏ النمافج الطن البرلش الفراغ الاتجاهي الاحتمالي 
لنطق البوليني نمم 
الوزن ت 
الريب ۳ ۳ 
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معاي المضاهاة ظهور الملصطلحات ‏ مساحة التوجيه (السهم ٠‏ ترددالملصطلحات 
الموجه) 
ملامح إضافية بميزة الصلاحية الراجعة 


ويتضح من الجدول أن النموذج البوليني هو الأضعف بين النماذج الثلاثة من 
حيث المزاياء فالنموذج البوليني يدعم فقط البحث البوليني» وتتم المضاهاة بناء 
على استخدام المصطلح الذي يبحث عنه المستفيد بوثائق النظام أو عدم استخدامه. 
مع ذلك فإن النموذج البوليني هو أكثر نماذج استرجاع المعلومات تطبيقاً في أنظمة 
قواعد البيانات الببليوجرافية على وجه الخصوص. أما النموذجان الآخران فيبدو 
أنهما سطحياً مششابهان» من حيث العمل على تطبيق آليات لرزن المصطلحات 
وترتيب النتائج وعدم تطبيق آليات البحث البوليني. ويختلف النموذجان فيما بينهما 
في معايير وزن المصطلحات وترتيب النتائج. إضافة إلى ذلك تميز نموذج الفضاء 
الاتجاهي باستخدام آليات الصلاحية الراجعة كملمح فريد من ملامح الأنظمة المطبقة 
لهذا النموذج. وقد بذلت جهود كبيرة لبناء أنظمة تطبق آليات وزن المصطلحات 
وتر تتت النتائج باللاعتماد على النموذجين (الفضاء الاتجاهي والاحتمالي)» بحیث 
تتيح إمكانيات أكثر فعالية وكفاءة من النموذج البوليني» إلا أن هذه الأنظمة لم تستطع 
تحقيق تميز ملحوظ في أدائها الاسترجاعي عن النظم التي تعتمد على نموذج المنطق 
البوليني (1997 .)Kor ahe,‏ 


9.8 العلاقة بين نماذج استرجاع 
المعلومات واليات الاسترجاع 


تم في الفصل الخامس مناقشة واستعراض آليات البحث والاسترجاع المختلفة» 
ومن الضروري التعرف إلى العلاقة بين نماذج استرجاع المعلومات وآليات الاسترجاع 
التي تمت مناقشتها. فعلى الرغم من عدم وجود علاقة واحد لواحد ”0 0ا 0"8 بين 
كل منهاء إلا أن بعض آليات الاسترجاع ترتبط بوضوح بنماذج استرجاع المعلومات التي 
اشتقت منها. فعلى سبيل المثال يرتبط البحث البوليني بنموذج المنطق البوليني بشكل 
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مباشر حيث إنه تطبيق واضح المعالم لهذا النموذج» كما أن توسيع الاستفسارات وخاصة 
باستخدام آليات الصلاحية الراجعة يرتبط بشكل مباشر بنموذج الفراغ الاتجاهي» كما أن 
الببحث بالوزن يعتمد على خوارزميات تم تطويرها بالاعتماد على النموذج الاحتمالي 
وغيرها من نماذج الاسترجاع مثل النموذج البوليني الموسع. 

وعلى الجانب الآخر توجد آليات استرجاع أخرى اعتمدت على نماذج استرجاع 
المعلومات الإضافية» فعلى سبيل المثال اعتمد البحث التجاوري في جذوره الأساسية 
على البحث البوليني الموسع. وعلاوة على ذلك تم تطبيق بعض آليات استرجاع 
المعلومات في أنظمة لم يتم تصميمها بالاعتماد على النموذج الذي اشتقت منه 
هذه الآليات» حيث تم تطبيقها جنباً إلى جنب مع آليات تلك النماذج بصرف النظر 
عن مصدرهاء بالتالي فإن تصميم النظام يعتمد على تطبيق آليات استرجاع أكثر من 
تطبيقه لنماذج استرجاع. وتخلط النظم في كثير من الأحيان بين أكثر نموذج بغرض 
تطبيتق آليات استرجاع متنوعة. لذلك تظهر الحاجة إلى تطوير نظم متعددة النماذج 
لاستر جاع اnlعلgوnمlٽت .Multimodel IR System‏ 

فالمعرفة الدقيقة للعلاقة بين نماذج استرجاع المعلومات وآليات الاسترجاع 
تساعد على اختيار النظام الملائم وفقاً للمهام التي يجب أن تؤديها تلك النظم. فعلى 
سبيل المثال لا بد من تطبيق النموذج البوليني في حالة حاجة المستفيد إلى إجراء 
بحث بولينى» أما فى حالة حاجة المستفيد إلى وزن المصطلحات البحثية وترتيب 
النتائج اتش الساجة إلى نموذج الفراغ الاتجاهي أو النموذج الاحتمالي ويتم 
تحديد أيهما الأنسب بناء على احتياجات المستفيدين من النظام أيضا. 


9.9 نحو نظم استرجاع معلومات متعددة النماذج 
Multimodel IR Systems‏ 
لكل نموذج من نماذج استرجاع المعلومات التي تم استعراضها في هذا الفصل 
مزاياه وعيويه» من ثم فإن النظم التي تطبق هذا النموذج سوف تؤدي وظائف 
استرجاع معينة وفقاً لإمكانيات هذا النموذج. لذلك من الضروري أن يعمل نظام 
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استرجاع المعلومات على الافادة من المزايا التي تتمتع بها كل النماذج من خلال 
دراسات فرانشس وآخرون (1999 ,1ع ,اه ,5ا )۴۲۵٣‏ حيث أطلقواعلى هذه النوعية 
من الأنظمة مصطلح أنظمة متعددة الإصدارات كصعاور؟ «oزوإمvناںM.‏ وتشیر 
الممارسات الحالية في أنظمة استرجاع المعلومات إلى أن النموذج البوليني هو 
النموذج الأكثر انتشاراً وتطبيقاً في أنظمة استرجاع المعلومات الببليوجرافية. ويتم 
تطبيتق النماذج الأخرى تدريجيا في أنظمة استرجاع المعلومات على الإنترنت. فإذا 
كانت استفسارات المستفيدين تتراوح بين استفسارات بسيطة ومحدودة من حيث 
التعقيد إلى استفسارات مركبة ومعقدة بدرجة كبيرة» لا بد من أن يكون تصميم نظام 
استرجاع المعلومات قادر على التكيف مع تلك الاحتياجات المتنوعة من خلال 
تطبيتق النظم متعددة النماذج. وتتطور أنظمة استرجاع المعلومات متعددة النماذج مع 
تطور آنظمة وآليات الببحث على الإنترنت والتى أصبحت المنصة الرئيسة للوصول 
إلى المعلومات فى العصر الرقمى. 

ويوجد العديد من الأسئلة التي مازالت مطروحة وتظهر بشكل متوال عن كيفية 
تطوير الأنظمة متعددة النماذج من خلال الدراسات والتجارب التي تتم في مؤتمرات 
استرجاع المعلومات مثل مؤتمر 1۸٤۴٣‏ وغيره من المؤتمرات التي تقدم إرشادات 
وتوجيهات عن كيفية بناء النظم الحديثة في هذا الجانب وضرورة إجراء دراسات 
مسحية للمستفيدين للتعرف إلى احيتاجاتهم المعلوماتية وأساليب البحث التي 
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لسر 


تمثيل المعرفة على الإند 


4 مقدمة 

لقد أدى تطور ونمو الشبكة العنكبوتية ۷6٥(‏ 0۲1۲8 ۷۷۷) إلى حدوث تغيير 
كبير في أساليب البحث عن المعلومات وسبل الإفادة من المصادر المتاحة من خلال 
شبكة الإنترنت. ويرجع ذلك بشكل كبير إلى النمو السريع والهائل في عدد وأشكال 
وأنواع مصادر المعلومات المتاحة من خلال الشبكة العنكبوتية» إضافة إلى تنوع تلك 
المصادر» وسهولة الوصول إليهاء هذا إلى جانب طبيعة تلك المصادر والتكنولوجيات 
المستخدمة فى إتاحتها. وقد جعلت هذه التطورات من الشبكة العنكبوتية أكبر مصدر 
لل ارماك فى العمر الخالى (9 195 6ف ر قد هاجب ذلك ترم في اضاابي 
استرجاع المعلومات المتاحة من خلال بيئة الويب. ونستعرض فيما يلي تطور أدوات 
استرجاع المعلومات في بيئة الويب. 


10 نشاة أدوات الوصول إلى المعلومات 
في بيئة الويب وتطورها 


قام عالم الفيزياء تيم برنر لي بوضع أسس الشبكة العنكبوتية في بداية التسعينيات 
من القرن العشرين لتكون وسيلة أساسية للباحثين في تبادل مسودات البحوث 
والرسائل الإلكترونية. ومنذ ذلك التاريخ بدت الا امات استخدام هذه 
الأداة في بث وتيسير سبل الوصول إلى المعلومات. ومع بداية عام 1993 كان هناك 
بضع مثات من المواقع المتاحة على الشبكة العنكبوتية معظمها مواقع تتعلق بكليات 
ومعاهد بحثية. وكانت الطريقة الأساسية لتبادل المعلومات بين مستخدمي الشبكة 
العنكبوتية في ذلك الوقت تتم من خلال بروتوكول تبادل الملفات المعروف ب (عا۴ 
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yag Transfer Protocol (FTP‏ عبارة عن برنامج يمكن من خلاله نقل الملفات من 
حاسب إلى حاسب آخر من خلال واجهة تعامل تعمل بالأوامر. فى تلك المرحلة 
ا اک اا ا ا ا ا ا وهای ان 
خلال هذاالبروتوكول. وكانت هذه الطريقة فعالة فى ظل مجموعات الويب الصغيرةق 
رکو ا اجو اف وال و ا ا دا ا ی 
ممادفع الباحثين للتنقيب عن وسائل أخرى. وتمشل أول تلك الحلول في الاعتماد 
على أحد محركات البحث التي تم تطويرها قبل نشأة الشبكة العنكبوتية والذي عرف 
بالآرشیف ۸۲۲11۷۵ إلا أن استخدامه من خلال نظام التشغيل يونكس ×1 فرض 
ضرورة اختصار الاسم إلى #ط٥4۲.‏ وقد قام بتطوير هذا المحرك أحد طلاب جامعة 
ماكجيل 10611 بمدينة مونتريال الكندية اسمه لن إمتاج eعها»۴‏ «۸14. وقد اعتمد 
هذا النحرك اساسا على قاعدة بيائات بأسماء الملفات المعاحة على الشبكة الحنكبرقة: 
فكانت عملية المضاهاة تعتمد بشكل كبير على البحث في قاعدة البيانات عن اسم 
الملف الذي يرغب المستفيد في استرجاعه (2000 ,۳0۷ 0إ6). وقد مرت عملية بناء 
وتطوير أدوات الاسترجاع في بيئة الويب بأجيال متعددة نذكر منها ما يلي: 


٠‏ الجيل الأول 


في عام 1993 طورت جماعة الاهتمام بالحاسبات بجامعة نفادا بالولايات 
المتحدة محرك بحث جديدااعتمد على البنية نفسها المستخدمة في المحرك 
Archie‏ وعرف هذا المحرل الجديد ب .۷٥۲٥١1١4‏ والاختلاف الوحید بین A۲٤11٤‏ و 
Veronica‏ هو ًن الثاني کان يعمل مع ملفات النصرص 1٥×٤) ۴٤S‏ ہ1ھا۴ء پینما کان 
الأول يعمل فقط على الاسترجاع من قاعدة بيانات تشتمل على أسماء الملفات. 
ثم ظهر تقريباً في التاريخ نفسه محرك ثالث عرف ب 44 عا[ وقد اعتمد أيضا 
على البنية نفسها المستخدمة في المحرك 2¡ »e0‏ وقد تم استخدام کل من 
Jughead and Veronica‏ لتبادل الملفات من خلال أداة التصفح جوفر Gopher‏ 
والتي قام بتطويرها مارك ماكهيل M٥۳31‏ ۸ء4 في جامعة ميناسوتا لكي تحل 
محل المحرك )2004( .Archie Lensse,‏ 
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وفي عام 1993 ظهر آول روبوت" على يد ماتنوي جاري ه6 ٤۷‏ ط)٤‏ والذي 
عرف بمتجول الشبكة العنكبوتية .۷۷W «46۲۴١‏ وقد كان الهدف الأساسي من هذا 
الروبوت هو إحصاء معدل الزيادة في الشبكة العنكبوتية من خلال تتبع وإحصاء خوادم 
الويب النشطة pû .Active Web Server‏ قام ماتثوي بعد ذلك بتعديل الربوت حتى يتمكن 
من تجميع محددات المصادر الموحدة ء1 .1R‏ وقد عرفت قاعدة البيانات التي تم 
تجميعها من خلال هذا الروبوت ب ×عل«ة۷. وفي أكتوبر عام 1993 قام أرتيجن كوستر 
Aij Kost‏ بتطویر محرك جدید یشبه فی بنیته المحرك ط٤۸۲‏ وعرف هذاالمحرك ب 
كا4. وقد تاح هذاالمحرك لأول مرة ا تسجيل الصفحات في محركات البحث» 
حيث آتاح الفرصة لمعدي صفحات الويب أن يقوموا بتسجيل الصفحات وتكشيفها 
ووصفها بأنفسهم» ولكنه واجه مشكلة كبيرة هي أن معدي صفحات ومواقع الويب لم 
يكن لديهم الخبرة الكافية لتكشيف وتسجيل صفحاتهم بأنفسهم (2003 .)8٤0,‏ 

وبحلول ديسمبر عام 1993 ظهرت ثلاثة محركات بحث جديدة في الوقت نفسه 
هى عل llتllgلıa: The World Wide Web Worm- WWWW, JumpStation, The‏ 
.Repository-Based Sowa Engine- RBSE‏ وقد اعتnد‏ lلnحzرA JumpStation‏ 
على تكشيف عناوين ورؤوس الصفحات إعل2٥1٨‏ ١ه 1)1٥‏ كما اعتمد في الاستر جاع 
على الببحث الخطي ^ gag .Linear Search‏ نمو الشبكة العنكبوتية لم يعدهذا 
المحرك قادرا على متابعة هذا النمو السريع مما جعله يتوقف سريعاً. أما المحرك 
WW WO»‏ ۷ فقد اعتمد على تكشيف العناوين ومحددات المصادر الموحدة ع۴ 
and UR‏ eاitآ.‏ ومن العيوب الأساسية في کJ JumpStation and WW WW jn‏ 
أنهما كانا يسترجعان النتائج دون أي ترتيب» حيث كان يتم استرجاع النتائج وفقاً 
للترتيب الذي وجدت عليه في قاعدة البيانات. أما المحرك ۸8S۴‏ فقد كان ول 


كبيرة جداً تفوق إمكانيات مات بل آلاف الأشخاص إذا حاولوا القيام بالوظيفة نفسها يدوياً. 
(1) البحث الخطى: هو مضاهاة حروف كل|ت الاستفسار حرف بحرف بمعنى أنه إذا كان أحدالحروف 
غير متشابهة فلا يسترجع أي نتائج وهو يشبه في ذلك البحث پإستخدام ۴ + آ01 في الويندوز. 
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محرك بحث على الشبكة العنكبوتية يستخدم فكرة نظم الترتيب والفرز R41)1”8‏ 
3‰ والتي يمكن من خلالها استرجاع النتائج مرتبة وفقا لمعايير الصلاحية”. 

ومع نهاية عام 1993 ظهر المحرك ءازء×8 والذي كان ناتج أحد مشروعات 
تطوير المحرك ا×عانط»٣A‏ والذي بدأه 6 طلاب في جامعة ستانفورد في فبراير عام 
3. حيث قاموا باستخدام فكرة التحليل الإحصائي كاوراة١A‏ 41ء:ائاه)5 لعلاقات 
الكلمات والمصطلحات كءمنطءمهناهامR W0۲١‏ من أجل جعل الببحث أكثر فعالية 
وكفاءة (2005 ,11ة۷). 


٠‏ الجيل الثاني 


لم تكن كل المحاولات السابقةء في الحقيقةء تمشل مقومات محركات البحث ولم 
تكن صالحة في الأصل كمحركات ؛ نظراً لأن الزاحف ١ءلم؟‏ أو الروبوت ا0طهR‏ 
الذي يتولى تجميع الصفحات من الشبكة العنكبوتية لم يكن بالذكاء الكافي الذي 
يتمكن خلاله من فهم العلاقات القائمة بين الروابط الفائقة s«ناعم81y»‏ ومن ثم فإن 
المستفيد إذالم يكن يعلم على وجه الدقة عنوان الصفحة التي يرغب في الوصول 
إليها فإته كان من الصعب وربما كان من المستحيل عليه الوصول إلى تلك الصفحة. 


وفي يناير عام 1994 ظهر أول دليل بحث على الشبكة العنكبوتية الذي عرف ]غ 
.6214×y‏ وقد ساعد على نجاح هذا الدليل اشتماله على ملامح البحث التي وفرها 
کل من جوفر ۲٥ص٥6‏ وتلنت 161"6 (وهما معا كانا يمشلان أهم أدوات الإنترنت في 
ذلك الوقت)» هذا إلى جانب ملامح البحث في الشبكة العنكبوتية. وقد شهد أبريل 
عام 4 مولد دلیل البحث ۲۵1٥0‏ على ید کل من ديفيد فيلو ۴1٥‏ ا4۷1٥‏ وجيري 
ilıج Jerry Yang‏ والذي لم یکن في بدايته سوى مجموعة من الصفحات والمواقع 
المخز تة على الحاسبات الشخصة لدى كل مهما 


وفقاً لعلاقتها بمصطلحات الاستفسار الذي يدخله المستفيد للبحث في الشبكة العنكبوتية. 
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٠‏ الجيل الثالث 


شهدت الفترة من عام 1994 حتى نهاية العقد الأخير من القرن العشرين ظهور عدد 
كبير من محركات وآدلة البحث التي تميزت بقدرتها الفائقة على بحث واسترجاع 
الصفحات والمواقع على الشبكة العنكبوتية كان أبرزها المحركات الثلاثة ,eاٍمم6‏ 
»A sta, Alltheweb‏ وغيرهم. وقد شهدت الفترة من عام 4 إلى عام 2000 
منافسة شرسة بين مجموعة من محركات البحث العالمية على تغطية أكبر قدر ممكن 
من صفحات ومواقع الويب» حيث شهدت تلك الفترة العديد من دراسات المقارنة 
بين مدى تغطية محركات البحث لصفحات ومواقع الويب. 


وقد شهدت الفترة من عام 2001 إلى 2010 طفرة جديدة في محركات البحث 
تمثلت في محاولة معظم المحركات الشهيرة في التحول من مجرد محركات بحث 
إلى بوابات للويب كاها۲ه۴ ا۷6. ويشير مصطلح البوابات إلى مجموعة الأدوات 
التي تسعى إلى تنظيم مصادر المعلومات المتاحة من خلال تقسيمات موضوعية 
شاملة بحيث تشتمل البوابة على جميع آنواع المصادر والخدمات التي يحتاج 
إليها المستفيدون من خدمات الشبكة العنكبوتية مثل خدمات البريد الإلكترونى» 
الدودة ب ورام الخدمات ر القر ات لديا و المراء الإخارية واسعار العملات 
وأحوال الطقس» إلى جانب قوائم موضوعية بمصادر المعلومات المتاحة من خلال 
البوابة إلى جانب محرل يتيح إمكانية البحث في البوابة. وإلى جانب التنوع في 
الخدمات التي تقدمها البوابات للمستفيدين منها نجد أن هذه المواقع عادة ما تتضمن 
برامج تساعد على تحلیل استخدامات المستفیدین ۸۸21726۲ ٤38ء0‏ ۷1 بغر ض بناء 
ملفات سمات المستفيدين ءء1ا؟ها۴ إعءلا ويمكن من خلال هذه الملفات التعرف 
إلى احتياجات المستفيدين والتنبؤ بهاء بالتالي اختيار المصادر المناسبة لكل مستفيد 
من المستفيدين من الموقع. ويمكن أن تقوم تلك المواقع باستخدام تكنولوجيا الدفع 
yعrechno1o Pushing‏ إلى المستفيدين من الموقع. كمايمكن أن تتم عملية الدفع 
عبر خدمات البريد الإلكترونى التي توفرها تلك المواقع أو إلى الصفحات الأمامية 
للمستفيدين من هذه المواقع كما يمكن أن يتم الدفع إلى دوسيهات خاصة للمستفيدين 
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من هذه المواقع. من ثم فالبوابات عادة ما تيسر لمستخدمي تلك المواقع كل أنواع 
الخدمات التى يحتاجون إليها بصورة تفاعليةء ممايوفر كل احتياجات المستفيد من 
بای اد ا العنكبوتية. وفي مقابل ذلك تسعى البوابات إلى جذب 
الشركات التي تسعى إلى الإعلان عن منتجاتها وخدماتها لتحقيق الأرباح من خلال 
تلك المواقع» حيث إنه من المعروف آنه كلما زاد عدد مستخدمي الموقع» تهافقت 
الشركات على الإعلان عن خدماتها ومنتجاتها من خلال هذه المواقع. 

٠‏ الجيل الرابع 

شهدت الفترة من عام 2000 بداية تطوير جيل جديد من آدوات البحث على 
الشبكة العنكبوتية يعرف بالأعوان الذكية للبحث ٤٣٤‏ ع۸ ۲٣ع‏ لام١1‏ التى تسعى إلى 
الاستفادة من إمكانبات الذكاء الأصطناعي والنظم الخبيرة لعسقيق متطلبات تشغيل 
الويب الدلالي Semantic Web‏ في تيسير عمليات البحث والاسترجاع ومازال العمل 
في هذه الأدوات في طور التجارب المبدئية. 


وتتنوع طرق الوصول إلى مصادر المعلومات المتاحة على الشبكة العنكبوتية بين 
أربعة اساليب اساسية هى )1999 .(Vaughan, & Thelwall, 2003; Gordon & Pathak‏ 


Navigation lal 10.1 


يستخدم الإبحار آليات الوصول المباشر من خلال آدوات التصفح المعروفة مثل 
G00 Chrome yÎ Internet Explorer‏ وما توفره من إمكانيات مثل الإبحار من خلال 


سطر معين المصادر الموحد 11«١‏ 081 أو الاعتماد على تخزين المواقع المفضلة في ملف 
الموادالمفضلة أو فى ملف تاریخ الاستخدام .Navigation History yî Bookmarks‏ 


Browsing zaصتll‎ 10.2 


تنبع تلك الطريقة من طبيعة صفحات الوبب التي تقود إلى بعضها البعض من 
خلال سلسلة متشابكة من الروابط الفائقة. وقد تم توظيف هذه السمة التي تتميز بها 
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الشبكة العنكبوتية في بناء فهارس موضوعية مصنفة لصفحات الويب تعرف بالآدلة. 
وهي عبارة عن قوائم برؤوس موضوعات عريضة وتحت كل رأس موضوعي عريض 
مجموعة من الرؤوس الثانوية التي تقود إلى صفحات الويب المرتبطة بالرآس 
الثانوي مرتبة وفقاً لقوة العلاقة بين الصفحة والرأس. بالطبع يمكن لهذه الأدلة أن 
تقوم بتكشيف الصفحة نفسها تحت أكثر من رأس موضوع واحد. 


10.3 أدوات البحث والاسترجاع على الويب 
Web Searching and Retrieval Tools‏ 


وتنقسم تلك الأدوات إلى ثلاثة أنواع رئيسة هي: 


10.3.1 أدلة البحث 


في عام 1994 قام ثنان من طلبة الدكتوراة بجامعة هارفرد هما جيري يانج وديفيد 
Yang and David Filo Ja‏ يدويا بتنظيم مجموعة من صفحات الويب التي كانت 
متاحة على حواسيبهم الشخصية في شكل دليل. وقد تطور هذا الدليل سريعا ليصبح 
أشهر دليل بحث على الويب وقد أطلقا عليه دليل البحث ياهو 100ة۲. ویتیح دلیل 
الببحث إمكانية الإبحار وتصفح مواقع الويب بالاعتماد على بنية هرمية مصنفة للوبب 
(2005) ,۴ع & نا1 فعلى سبيل المشال عند الببحث عن موقع عن تاريخ الويب 
يجب على الباحث التزام التتابع التالي لكي يصل إلى المعلومة المطلوبة: 


Computer and Internet > Internet > World Wide Web > History 


وعلى الرغم من أن عملية البحث من خلال التزام بنية هرمية ثابتة تساعد على 
الوصول إلى المعلومات المطلوبة أحيانا خاصة عندمايكون الباحث على دراية 
بالموضوعات وعلاقاتها بعضها بعضاء إلا أنها لا تصلح لتلبية كل الاحتياجات البحثية 
فنفترض مثلاً أن أحد الباحثين يريد معلومات عن «من هم مؤسسو دليل الببحث 
ياهو؟» فى هذه الحالة فإن عملية الوصول للمعاومات المطلوبة قد تستغرق وقتا 
راا ر 0 الات اب إت ابت فیا ار ابل کل 
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الصفحات المسترجعة للوصول إلى المعلومة المطلوبة. هذا إضافة إلى أن عملية بناء 
أدلة البحث تعتمد على تجميع صفحات الويب يدوياً وة شیفها یدویاء ممایتعذر معه 
تغطية كل الصفحات» كما آنه يبحتاج إلى وقت طويل للتعرف إلى الصفحات الجديدة 
والتعديلات التي تجرى على الصفحات القديمة. من هنا ظهرت الحاجة إلى أدوات 
أكثر سرعة في تغطية النمو الهائل في صفحات الويب» إضافة إلى متابعة التغييرات 
التي تجرى على هذه الصفحات. وقد كان لظهور وتطور محركات البحث أكبر الأثر 


10.3.2 محرکات البحث 
Search Engines‏ 


تعمل محركات البحث بصفة أساسية على بناء كشافات لمصادر المعلومات 
المتشابكة من خلال اشتقاق كلمات أو عبارات من النصوص نفسها لبناء ملفات تسمح 
ببحث هذه المشتقات بالاعتماد على أساليب البحث والاسترجاع المعروفة مثل المنطق 
البوليني» وتجاور المصطلحات» والبتر» والجذع وغيرها. والحقيقة أن هذه الملفات لا 
تتميز عن الأساليب التقليدية التي استخدمت في الاسترجاع منذ أن حل الاسترجاع 
العشوائي محل الاسترجاع التسلسلي» والتي تشتمل بصفة أساسية على ثلاثة ملفات 
حيوية هي: الملف التسلسلي Seria File‏ والملف الكشفي »[ndex File‏ والملف 
المقلوب ٤ا۴ .[۷e٤ed‏ ومع ذلك فإن التقنيات الحديثة من أجهزة وبرمجيات ساعدت 
على تحديث وبحث تلك الملفات المقلوبة بسرعة كبيرة» هذا إلى جانب أنها أضافت 
إلى تلك الملفات مجموعة جديدة من الملفات لتيسير عمليات البحث والاسترجاع 
مثل ملف الروابط الفائقة» ملف وصف الوثائق.. إلخ (1998 ,ئة« 4ا). 


٠‏ الفرق بين محركات وأدلة البحث 


قبل التعرف إلى طريقة عمل محركات البحث لا بد من التمييز بين محركات وأدلة 
الببحث وما هي المتطلبات التي دفعت إلى التنويع في أدوات البحث والاسترجاع. 


تمتيل المعرفة على الإنترنت 


الملمح الأساسي الذي يميز محركات البحث عن أدلة البحث أنها تعتمد بشكل 
آساسي على برامح الزحف Sof) 2e‏ 2£ التي تقوم بمسح الشبكة العنكبوتية 
للتعرف إلى الصفحات الجديدة وتجميع نسخ منهافي ملفات خاصة من أجل تيسير 
عمليات تكشيفها. هذه الزواحف عبارة عن برامج تقوم بتتبع الروابط الفائقة من 
صفحة إلى آخرى ومن موقع إلى آخر. وفي بعض الحالات يمكن لصاحب الموقع أن 
يعرف محرل البحث على موقعه من خلال تعريف العنكبوت أو الزاحف على عنوان 
هذا الموقع أو معين المصادر الموحد (0۸1) الخاص بهذا الموقع. أما الأدلة فهي 
لا تعتمد على برامج للزحف» وإنما تعتمد بشكل أساسي على الإمكانيات البشرية في 
تصفح الشبكة العنكبوتية للتعرف إلى الصفحات الجديدة وتكشيفها. 

لذلك يمكن القول إن محركات البحث تعتمد على التجميع والتكشيف الآلي» 
بينما تعتمد أدلة الببحث على التجميع والتكشيف اليدوي. بالتالي فإن محركات 
البحث تستطيع التجميع والتكشيف بسرعة أكبر بكثير من سرعة أدلة البحث مما 
يجعلها أكثر شمولا في تغطية صفحات ومواقع الويب. 


ويتبادر إلى الذهن هناسؤال مهم هو لماذا نحتاج إلى أدلة بحث مادامت 
محركات البحث أكثر سرعة وكفاءة؟ 


الإجابة بشكل مختصر هى الجودة ,اناةQ‏ حيث إن القائمين على تجميع 
الصفحات وتكشيفها بشكل يدوي بالطبع لديهم قدرة أكبر على التمييز بين 
الصفحات والتعرف إلى مدى ملاءمتها للفئة التي يتم تصنيف الصفحة تحتها. كما 
أن هذا الشخص لديه قدرة أكبر من البرامج على تجميع الصفحات المهمة واستبعاد 
الصفحات غير المهمة واختيار الرؤوس المناسبة. وقد أثبتت التجارب العلمية العديدة 
الت آجريت للمقارنة بين أسالبب التكشيف البدوى والتكشيف الاآلى تشوق التكشف 
اليدوي في دقة النتائج المسترجعة عن التكشيف الآلي» بينما يتفوق التكشيف الآلي 
في عدد النتائج المسترجعة. 


في عام 2008 سجل محرل الببحث جوجل أنه اكتشف أكثر من تريليون معين 
مصادر موحد €nif orm Resources Locators - DRLS‏ لاصفحات ومو اقع ويب قابلة 


الفصل العاشر 


للبحث والاسترجاع من خلال المحرك. ومع ذلك أشار العديد من الدراسات إلى آنه 
لايوجد محرك بحث واحد قادر على تكشيف وبحث كل صفحات الويب المتاحة 
على الإنترنت. وسنعرض فيما يلي كيف تعمل محركات البحث على تيسير ببحث 
واسترجاع صفحات الويب من خلال عرض عمليات التجميع والتكشيف والعوامل 
التي تؤثر في البحث وترتيب الصفحات المسترجعة (1.2). حيث تعتمد محركات 
البحث على تجميع صفحات الويب من خلال أدوات يطلق عليها الزواحف التي تقوم 
بالحصول على نسخ من صفحات الويب ثم تقوم المحركات بتكشيف تلك الصفحات 
وإعداد كشافات تيسر عمليات البحث والاسترجاع من خلال أدوات الببحث التي 
يستخدمها الباحثون أثناء التفاعل مع واجهات تعامل متاحة من خلال الويب. من ثم 
فمحركات البحث تتكون من 5 عناصر أساسية هى: الزواحف» والكشافات» وقاعدة 
ا و ا ی ی اي 


:Web Crawling زواحف لويب‎ .1 


تعد أداة ماٹیو جlري Matthew Gray‏ التي طورها خلال عام 3 والمعروفة ب W011‏ 
Wide Web Wanderer‏ اول محاولة لتطویر اداۃ للتجميع اس لصفحات الويب في مقابل 
التجميع اليدوي الذي اعتمدت عليه أدلة البحث (1995 ,وه6). واعتمدت تلك الأداة على 
تحميل صفحات الويب واختبار الروابط الفائقة التي تربطهابصفحات أخرى ثم تقوم 
بتحميل كل الصفحات المرتبطة التي تكتشفها أثناء تتبع روابط الصفحة الأصلية حتى تنتهي 
من تجميع كل الصفحات التي تكتشفها أثناء عملية التصفح. وهي الطريقة التي تعمل بها 
کل أدوات التجميع الالى والتي يطلق عليها العنكبوت ۲ء لام؟ أو الروبوت 0طا0 .R‏ 

ونظراً لضخامة حجم الويب فإن محركات البحث عادة ما توظف آلاف الزواحف 
التي تقوم بتصفح الشبكة العنكبوتية لتحميل صفحات الويب» والبحث عن روابط 
فائقة لصفحات جديدة» إضافة إلى إعادة زيارة الصفحات القديمة التى يمكن أن 
یکون محتواهاقد تغير. اا ی کات اک لے و امات 
بناء على معدلات وتتابع التغيير في تلك الصفحات وذلك بغرض تحديث محتوى 
الكشافات التي تتضمن معلومات عن تلك الصفحات. 


تمتيل المعرفة على الإنترنت 


رتت عة کل اا تيه الريه من وجات أسرآ في غاب الصعربة وسن 
التحديات التي لم تستطع آي آداة إلى اليوم التغلب عليهاء ليس فقط بسبب حجم 
الويب ولكن أيضا بسبب معدلات التغيير السريعة في محتوى صفحات ومواقع 
الويب. كما أن العديد من الصفحات تظهر وتختفي بمعدلات سريعة» وهو مايطلق 
عليه الروابط الفائقة غير النشطة )ہ1 .,[nactive ink Died‏ ویریى بروستيلر کاهلي 


Brewster Kahle‏ مو سس أرشيف |لڼنترنٽ ùÎ Internet Archive‏ العمرالمتوقع لي 
صفحة ويب قد يصل إلى 0 يوم فى المتوسط (2003 ,8ئزW6).‏ 


وتنقسم الويب إلى ثلاثة مستويات من حيث إمكانيات تعامل الزواحف مع تلك 
الدوات )2001 :)Bergman,‏ 


:Sur face ۷ الويب السطحي (ء‎ ٠ 


ویطلق عليه آيضا مستوى الويب المرئى ط٥۷‏ #ااونوز۷ أو الويب المكشف 
Indexable Web‏ أو الويیب المضيء Lighened Web‏ ویشمل ا من الشبكة 
العنكبوتية العالمية المتاحة للمستفيد العام دون الحاجة إلى تحقق من هوية المستفيد 
كماآنه متاح للتجميع من خلال الزواحف والتكشيف بمحركات البحث. 

:25 الويب العميق ء۷ مء‎ ٠ 

يطلق عليه مستوى الويب غير المرئى أو الويب المخفى ء۷ عاطءذوز۷"! وهو أجزاء 
بمحركات البحث. وعادة ما تستخدم المواقع الحكومية والتجارة الإلكترونية ومواقع 

:Dar) Web الويب المظلم‎ ٠ 
وهى شبكة تصفح‎ »10R OR The Onion Router Jثم باستخدام برامج خاصة‎ 
شَُعَبيّة مجهولة تستخدم للاتصال بالويب المظلم. وعادة ما يستخدم قراصنة الويب‎ 


الفصل العاشر 


أدوات الببحث من اكتشافها واكتشاف مصدرها كما تستخدمها المواقع غير القانونية 


ويمكن تقسيم زواحف الويب إلى ثلاثة آنواع هي: 


Automated Based Crawlers ةيلlږI‎ فڪlوgjll‎ .Î 


بصورة آلية دون تدخل بشري. وتستخدم تلك الزواحف برامج حاسب آلي تقوم 
بتصفح الويب لتحديد الصفحات الجديدة ثم تقوم باصطيادها وتجميعها. 


weme DEEP WEB tein onun 


Medical Records . Financial Records 
i Government Resources 
Legal Documents 


Scientific ReBORÊ Competitor Websites 


Subscription Information r Media 8 E atlon specific 


Repositories 
vv 


A part of the Deep Web accessiblê only through Ceri browsers such as Tor designed to 
ensure anonymity. Deep Web Tech oloqies : HaS zG involvement with the Dark Web. 


Deep Web Technology. https://www.deepwebtech.com/deepweb-not-darkweb 


تمتيل المعرفة على الإنترنت 


Human Based Crawler ب. الزواحف |البنظرية‎ 


Hybrid Crawlers” Or Mixed Results ةطؤطliخملا ت. الزواحف‎ 


وال الا نادرة الاستخدام لارتفاع تكلفتهاومن أمثلة محرکات البحث 
التى تعتمد على هذا الأسلوب أداة نها)ه[. 


وتحدد بعض الصفحات التي لا يرغب القائمون عليها إتاحتهامن خلال محركات 
البحث وذلك لأسباب متعددة منها: أن تشتمل على معلومات خاصة بالعاملين في 
مؤسساتهم فقط» أو تتضمن معلومات لها درجة سرية محدودة أو غيرها من الأسباب. 
وفى هذه الحالة يستبعد القائمون على تطوير هذه الصفحات تجميعها من خلال الزواحف 
باد بروتو کول استبعاد الروبوت 00ا٥۴‏ s¡onںآا›×8‏ sامطه‌R‏ وهو عبارة عن کود 
يتم وضعه ضمن أكواد 111 بالصفحة لاستبعاد الزواحف من التعامل مع تلك الصفحة. 

ما الغالبية العظمى من المؤسسات فترغب في تكشيف وإتاحة صفحاتهامن 
خلال محركات البحث» ما يعطيها فرصة أكبر للظهور والاسترجاع. فيقوم المسؤولون 
عن تطوير الصفحة باستخدام بروتو كول خريطة الموقع Sitemap Protocol‏ وهو أداة 
تدعمها معظم محركات البحث تتيح للزاوحف قائمة بعناوين المصادر الموحدة التي 
يمكن تكشيفها عند التعامل مع الموقع (08 .)/https://Nww.sitema Pps.‏ وتعد هھذە 
التقنية في غاية الأهمية للزاوحف حيث تمكنها من التعرف إلى عناوين المواقع التي 
لا يمكنها الوصول إليها من خلال أساليب الزحف التقليدية بالتالي لا يمكنها الوصول 
إلى تلك الصفحات وخاصة صفحات الويب العميق. 


ويعرض الجزء التالي كيف تقوم محركات البحث بتكشيف الصفحات وتيسير 


الفصل العاشر 


Indexing and Ranking jll التكىتيف‎ [1 


عندما ينتهي الزاحف من اصطياد الصفحات ويقوم بتجميعها في مستودع الوثائق 
يقوم محرل البحث بتكشيف محتوى الصفحات» حيث يقوم بتجميع الكلمات 
والمصطلحات والعبارات الواردة في تلك الصفحات مع استبعاد الكلمات كثيرة 
التردد والتي يطلق عليها كلمات الوقف كلام۷ و٥51‏ وهي الكلمات التي تتردد كثيرا 
في الوثائق لتكملة السياقات. وعادة ما تفتقر هذه الكلمات إلى الدلالة الموضوعية 
التي يمكن استخدامها في البحث عن الوثيقة مشل حروف الجر وأسماء اللإشارة 
والمكان والزمان سواء كان ذلك للوثائق باللغة العربية (في» من» على» عند.. ..الخ) أو 
باللغة الإإنجليزية (ء)e‏ ...01 .)a, an, the, when,‏ كا تقوم المحركات اشا باستخدام 
N e A e e‏ 
للكلمات والمصطلحات من خلال استبعاد البدايات كع×ااعء۴ واللواحز Suffixes‏ 
مسا اغد على تسين مسو ق تكش ف اللات وتا كشانات كر دلالة علي 
المحتوى الموضوعي للوثائق ق. فعلى سبيل المثال كلمات مثل ١2ء cating, eats a1d‏ 
كلها مشتقات من الأصل اللغوي هه بالتالي فإن البحث عن المصطلح ٠۵‏ سوف 
يسترجع كل المشتقات وبدائل والمصطلح ممايحسن من كفاءة الكشاف. 

ويمكن تصور شكل الكشاف بأنه عبارة عن قائمة بالمصطلحات الواردة فى 
صفحات الويب وأمام كل مصطلح من هذه المصطلحات أرقام الوثائق ی الي وارد 
بها المصطلح القابل للبحث. فعلى سبيل المثال إذا كان الكشاف يشتمل على أربعة 
مصطلحات وأرقام الوثائق تق التي تعبر عنها هي كالتالي: 


جدول رقم (2 .) المصطلحات الكشفية وطريقة تمثيلها بالمحر كات 


المصطلحات بالكشاف أرقام الوتائق 
Internet‏ 25 
Search‏ 1,5,6 
Browse‏ 1,2 
Tool‏ 4 


تمتيل المعرفة على الإنترنت 


فإذا كان الباحث يبحث عن المصطلح ١١4۲ء5‏ فإن النتائج المسترجعة ستشتمل على 
الوثائق 1, 5 ,6 بينما البحث عن 1١4۲ء5‏ ۴١۲ع"1‏ فسينتج عنه استرجاع الوثيقة رقم 5 فقط» 
حيث إنها الوثيقة الوحيدة التي ورد بها كل من المصطلحين معاً. وذلك في حالة اعتبار 
المغانل 4۸5 هو المعامل الرئيس عة الت بجمل. وقد تعمد مخركات البح غل 


معاملات أخرى» وسوف يتم مناقشة أساليب البحث بشكل أكثر تفصيلاً فيما يلي. 
وتستخدم محركات البحث أيضاً أساليب لوزن المصطلحات عند بناء الكشافات 
محر كات الت لوز الر لاتق والفط اجات كر مهاهايلي: 


الوزن pga :Weighting‏ على تحديد قيمة رقمية للمصطلح تحدد مدی 
صلاحيته وأهميته بالنسبة للوثيقة التي تم تكشيف المصطلح منها. ومن أبرز 
آساليب وزن المصطلحات استخدام عدد مرات تردد المصطلح في الوثيقة 16۲۳ 
Frequency‏ والذي يتم على أساسه تحديد أهمية المصطلح بالنسبة للصفحة 
وفقاً لعدد مرات تردد المصطلح في الصفحة. فعلى سبيل المشال إذا كان أحد 
الباحثين يريد معلومات عن ملع٤‏ فإن الصفحة التي يرد فيها المصطلح Egypt‏ 
خمس مرات عادة ماتكون أكثر آهمية من صفحة أخرى يرد فيها المصطلح 
مرة واحدة. وعلى الرغم من ذلك فإن تردد المصطلحات يتأثر بعاملين أساسيين 
ھ2004)ln (Garcia-Molina & Gyngyi,‏ . 


حجم الصفحة مأك موج۴ 


فعلى سبيل المثال الصفحة التي تردد المصطلح بها 5 مرات» وتشتمل على 1000 
كلمة تصبح أهمية المصطلح بالنسبة لهذه الصفحة تعادل 0.005 . بينما الصفحة 
التي تردد بها المصطلح مرة واحدة وتشتمل على 100 كلمة فقط» تكون أهمية 
هذا المصطلح بالنسبة لهذه الصفحة هي 1./» من ثم تكون الصفحة التي ورد بها 
المصطلح مرة واحدة أكثر أهمية من صفحة أخرى ورد بها المصطلح 5 مرات نظرا 
لن حجم الصفحة أثر في الأهمية النسبية للمصطلح. 


Spamming gIخll‎ .1 


استخدام تردد المصلحات كأسلوب لتحديد الأهمية النسبية لصفحات الويب يتأثر 
بأساليب إغراق الصفحات بكلمات ومصطلحات وتكرارهاعدد من المرات لزيادة 
الأهمية النسبية لهذه الصفحات عند مقارنتها بصفحات أخرى. فعلى سبيل المثال 
إذا أراد مطورو صفحات الويب أن يتم تكشيف الصفحة التي يقومون بإعدادها تحت 
مصطلح أو مجموعة معينة من المصطلحات» فإنهم يكررون هذا المصطلح عددا 
كبيراً من المرات لزيادة الأهمية النسبية للوثيقة عند تكشيفها تحت هذا المصطلح» 
ممايرفع من مكانتها في الترتيب النهائي للوثائق. ويعرف هذا الأسلوب بخداع 
محر كات اح .Search Engine Persuasion‏ 


2. الترتيب وفقاً لموقع المصطلح وشكله 

هذه الطريقة تعتمد على إعطاء وزن نسبى للصفحة بناء على السياق الذي ورد 
ےق ااا اراد اا د ار 
أو عرض 8014 ۲ه 14۲86 من بقية المصطلحات فإن ذلك يعني أن هذا المصطلح له 
آهمية نسبية أكبر من غيره من المصطلحات. كما أن ظهور المصطلح في أماكن معينة 
مثل عنوان الوثيقة قد يعني أن المصطلح له قيمة أكبر من غيره من المصطلحات التي 
لم ترد بعنوان الوثيقة. 

3. استخدام نصوص الزاوية Anchor 7ext‏ 

تعتمد هذه الطريقة على إعطاء أهمية نسبية للوثيقة وفقاً لعدد مرات ظهور 
المصطلح ضمن أقواس الزاوية للوثيقة المصدرية أو ضمن أقواس الزاوية لوثيقة 
آخرى تشير إلى الوثيقة. بعبارة أخرى إذا كان المصطلح ورد بالوثيقة وبه رابطة نشطة 
لصفحة خرى فإن ذلك يعني أنه مصطلح مهم» كما أن ورود المصطلح بوثيقة أخرى 
بها رابطة نشطة تشير إلى الوثيقة المكشفة يعني أن الوثيقة الحالية تتناول المصطلح 
المشار إليه من وثيقة أآخرى. 


على سبيل المثال إذا كانت الوثيقة الحالية بها رابطة نشطة لمصطلح 1ءإةم؟ 
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فإن هذا يحمل معنيين: أن هذا المصطلح مهم بالنسبة للوثيقة الحالية كما 
آنه أيضا مهم بالنسبة للوثيقة التي يشير إليها. 

وقد دى استخدام محركات البحث لهذا الأسلوب إلى ظهور مايعرف بالروابط 
المخادعة sمدنا‏ ع«نصسصهم؟ وخاصة لدى محرل البحث جوجل فيماعرف بفرقعات 
جوجل Bomi‏ ماعoەG.‏ ولعل أشهر أمثلة فرقعات جوجل التي جاءت نتيجة 
لاستخدام أسلوب تحليل نصوص الزاوية لاسترجاع صفحة البيت الأبيض انط 
م في قمة النتائج المسترجعة عند البحث في جوجل عن مصطلح miserable‏ 
ان وهي الفضيحة التي اهتم بها الإعلام الامریكي؛ نظرالو جود الكثير من صفحات 
الويب التي تشير إلى موقع البيت الأبيض باستخدام هذا المصطلح ضمن نصوص 
الزاوية الخاصة بها. وقدعالج جوجل خلال السنوات القليلة الماضية مشكلة الفرقعات 
من خلال تطوير خوارزميات التكشيف وآليات البحث )2009 .(Moulton & Carattini,‏ 


4. استخدام الروابط الفائقة 


يعتبر استخدام الروابط الفائقة لرسم شكل الويب من أكثر الأساليب استخداماً 
بمحركات بحث الشبكة العنكبوتية» حيث يعتمد هذا الأسلوب على عرض الشبكة 
العنكبوتية في صورة نقاط ارتكازية يطلق عليها أسانيد Links طolورو Authorities‏ 
توضح صورة بيانية لصفحات الويب وعلاقتها ببعضها بعضا. فقد قام كل من سيرجي 
براين ولاري بييدج »Sergey Brin and Larry Pag‏ عندما كانا طلبة دكتوراة بجامعة 
ستانفورد بتطوير محر البحث جوجل» بالاعتماد على فكرة رسم الويب في صورة 
شكل من خلال توضيح علاقة صفحات الويب ببعضها البعض ممايساعد في 
تحديد صلاحية صفحات الويب من خلال دراسة تلك العلاقات. ففي عام 1998 
قاما بإعداد دراسة عن كيفية قياس صلاحية صفحات الويب من خلال دراسة موقع 
صفحة الويب في إطار الشكل العام للويب ١م6۲4‏ ا۷ وبصفة خاصة عدد الروابط 
الفائقة المرتبطة بالصفحة كما ع«نصهء,م! وعدد الروابط الفائقة الخارجة من 
الصفحة كما ع«امعا0u.‏ وتعتمد هذه الطريقة على فكرة الاستشهادات المرجعية 
التي استخدمها يوجين جارفيلد 14عا؟عة6 ٥«ععuا8‏ في تحديد الأهمية النسبية 
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للدوريات العلمية والأهمية النسبية للمقالات ومؤلفي المقالات» حيث يتم تقييم 
الصفحة على أساس عدد الاستشهادات (الروابط التي تشير منها وإليها). فالصفحة 
التي تتلقى عددا كبيرا من الاستشهادات في موضوع معين تعد صفحة أكثر أهمية 
من صفحة أخرى تتلقى عددا أقل من الاستشهادات» بالتالى فالصفحة التى تتلقى 
علدا كيرا سن الاسعشهادات لا يدان يت رها أعلى من الصفحة الي فى عدا 
آقل من الاستشهادات. وقد أطلق براين وبيدج على خوارزمية الفرز مصلح ترتيب 
الصفحة k«ه‏ ۴۸ والتى تمثل الأداة الأساسية فى بنية محرل الببحث جو جل (8۲1۸ 
8 ,۴48# &). وقد بدأ معظم محركات البحث منذ بداية الألفية الجديدة الاعتماد 
على تحديد الرسم البيانى للويب كأداة أساسية في إعداد خوارزميات الترتيب التي 
تستخدمها في ترتيب النتائج. 

ويوضح الشكل رقم (10.3) الرسم البياني للويب حيث تظهر فيه مجموعة 
من الصفحات على أنهانقاط ارتكازية والروابط المرتبطة بهذه الصفحات. ویتم 
تحديد ترتيب الصفحة بناء على حجم ولون النقاط الارتكازية» ومن الملاحظ أن 
الصفحات التي حصلت على ترتيب عالٍ )ده ۸ءعه۴ 811 (والممثلة باللون الأحمر) 
هى الصفحات التى تشتمل على عدد أكبر من الروابط عن الصفحات ذات الترتيب 
المنخفض PageRank‏ س10 والممثلة باللون الأخضر. 


شكل رقم ( 10.3) رسم بياني مبسط للويب يوضح طريقة تحديد ترتيب الصفحة Pag¢eR41K‏ 
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Databases ٽlنlيبلll قواعد‎ .11 


تع قراعدالاتات ال بطل علا أحيانا مسر غات الرتاتي؛ المضت ر الأ اسي 
للمعلومات أثناء عمليات البحث والاسترجاع في تلك المحركات» ومع ذلك 
فهي لا تمشل بديلاً للشبكة العنكبوتية» وإنما تتضمن معلومات عن الصفحات» هذه 
المعلومات تساعد محركات الببحث على إجراء عملیات البحث والاسترجاع» وعادة 
مايطلق على هذه المعلومات النقاط الكشفية gag .Indexing Points‏ ذلك فهناك 
بتکشیفها مثل محرك البحث جوجل Google‏ ومحرك البحث thew‏ حیث یقوم 
كل منهما ببناء مستودعات كاملة بكل الصفحات التي يتم تكشيفها لتيسير عمليات 
البغابعة والتعديك. كما أن عة المستر غات تقد كرا في حالة جحد ف الصقحة هن 
الخادم الرئيس» حيث يمكن استرجاع الصفحة من أرشيف محرل البحث من خلال 
ما يعرف بالصفحة المخبأة 0381 #ع۲1. ويعمل محرل البحث جو جل الآن على بناء 
أرشيف للإنترنت بالصفحات التي تتضمنها قاعدة بياناته» ويتم تحميل هذا الأرشيف 

Search Software کھبلl برامج‎ .۷ 


تعد برامج البحث والاسترجاع من أكثر المكونات أهمية بالنسبة لمستخدمي 
محركات البحث» حيث إن هذه البرامج هي التي تقرر أي الصفحات تتناسب مع 
استراتيجية الببحث أو السؤال الذي يوجه المستفيد لمحرل الببحث» كما آنها أيضا 
تحدد ترتيب الصفحات المسترجعة» حيث تدفع هذه البرامج بالصفحات الأكثر أهمية 
إلى قمة القائمةء تليها الصفحات الآقل أهمية فالأقل. ويتم ذلك بناء على مجموعة 
من المعادلات الرياضية التي تعرف في مجال استرجاع المعلومات بخوارزمیات 
محر كات ائ .Search Engines Algorithms‏ 


ويقوم العديد من المتخصصين في عمليات رفع كفاءة محركات البحث Search)‏ 


Engines Optimiation (SEO‏ بقضاء وقت طویل في محاولة منهم لفهم الطرق التي 
تستخدمها محركات البحث في ترتيب الصفحات المسترجعة من أجل وضع تعليمات 
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تساعد على رفع ترتيب الصفحات ضمن النتائج المسترجعة. كما تتضمن تلك 
البرامج الساليب المختلفة التي يمكن للمستفيد أن يستخدمها في إعداد استراتيجية 
الببحث أو صياغة الاستفسار بطريقة تساعد الباحث على الوصول إلى أفضل النتائج. 


وتجدر اللإشارة إلى أن محركات البحث عادة ما تعد الأساليب التي تستخدمها 
في وزن المصطلحات وترتيب الصفحات من الأسرار التي لايمكن نشرها حيث 
إنها تعد الميزة التنافسية التي تميزهاعن غيرها من محركات البحث» كما أن إعلانها 
لمطوري مواقع وصفحات الويب قد يؤدي إلى اتباع طرق تؤدي إلى خداع تلك 
المحركات. ومع ذلك فإن الشركات والمؤسسات التجارية تهتم كثيرا بتريتب مواقعها 
في محركات البحث فيمايعرف بصفحة نتائج محر اګ Search Engine)‏ 
Pe (SERP‏ tاuءRe»‏ نظراً لأن المستفيدين عادة مايهتمون فقط بالصفحة الأولى من 
نتائج البحث ويقومون بعرض عدد محدود جدأ من النتائج المسترجعة في قمة هذه 
ااا رال الاي ا ر في ل ا ان الك . وتلعب صفحة 
نتائج البحث في المحركات دورا أساسياً في دعم أهمية مواقع الشركات والإعلان 
عنها حيث إنها لها حوافز اقتصادية كلما كان الموقع يظهر ضمن المجموعة الأعلى 
ترluıai Ranking‏ yاطع۳‏ ضمن النتائج المسترجعة. لذلك تقوم الشركات بشراء 
مساحات وأماكن معينة لعرض إعلاناتها في صفحة نتائج محركات البحث فيما 
يعرف بالنتائج المدعومة (الرعاية( )2006 „sponsored results (Cutts,‏ 


وتو جد صناعة قائمة على مايعرف بالترقية فى محر كات |لح Search Engine)‏ 
Optimization (SEO‏ تت للعديد من الشركات القيام بمجموعة من اللإإجراءات التي 
تساعد على تحسين ترتيب صفحات الويب ضمن صفحة نتائج محركات البحث 
بالاعت اد على الأسالپ ب التى تمت متافشتها أعلاه مماساعد أيضا على زبادة عادد 
الروابط الفانقة وجرةة تلك الروابط 


وتعرف الترقية بأنها أسلوب أو طريقة sS‏ 


e‏ المتاحة ي الشبكة العنكبوتية أن تحصل على تر e‏ أعلى 
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الترقية في محركات البحث منها ترتيب محركات البح «Search Engine Ranking‏ 
والترقية من خلال محركات الببحث Search Engine Promotion‏ وترقية مواقع 
المعلومات Website Promotion‏ zjlgعçl‏ الكشاف ×علمآ هم5 ومزرعة الروابط 
الويب من خلال استبعاد الصفحة من الكشاف وحظر حصادها وتجميعها من خلال 
الزاحف بالتالى تكشيفها لفترة زمنية معينة (2006 ,كاا€). 

ويشير العديك من دراسات المسفيدين من سخ ر كات البح إلى أن 1 من كل 20 
مستفيدأ يتعاملون مع النتائج التي تظهر في الصفحة الثانية من نتائج البحث وأن 1 من 
تدفع المؤسسات إلى الترقية في محركات البحث منها مايلي: 

أ. أسباب اقتصادية: حيث إن ظهور موقع المؤسسة ضمن الصفحات العشر 
الأولى في محركات البحث يعد من آهم أساليب الدعاية عن المتتجات 
والخدمات التى تقدمها المؤسسات» مما يساعد على تحفيز الموقع 
الاقتصادي للمؤسسة وزيادة ربحيتها إذا كانت تهدف للربح. 


ب. أسباب سياسية» حيث إن ظهور الموقع ضمن قائمة المواقع في الصفحة 
الأولى لنتائج البحث يودي إلى تمييز هوية المîؤسwة Organization Identity‏ 
فى البيئة الإلكترونية» والذي قديعد أحد الأهداف السياسية للدول التى 
اع علي امت من قل مساك ك ادر ني اعات دة ۰ 

ج. أسباب ثقافية وعلمية مثل كثرة الرجوع إلى مقالات جريدة معينة أو صفحات 
جامعات أو أشخاص معينين» ما يعزز المكانة الثقافية والعلمية لتلك 
المؤسسات إضافة إلى حرص العديد من المؤسسات على تقديم المعلومات 
الصحيحة لجمهور الإنترنت حتى لاأيتم خداعهم بمعلومات مضللة وغير 
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The Interface Jمnlعتll واجهة‎ .۷ 


واجهة التعامل هي الجزء الذي يراه المستفيد عند التعامل مع محركات البحث والتي 
الببحث. وعادة ما يبدأ البحث من واجهة التعامل حيث يقوم المستفيد بكتابة استفساره في 
صندوق البحث» الذي يرسل مباشرة إلى برامج البحث» التي تقوم بدورها بالبحث في 
قاعدة البيانات لتحديد كل الصفحات الصالحة للإجابة عن استفسار أو سؤال المستفيدء 
ثم تتولى بعد ذلك فرز هذه النتائج من الأكثر إلى الأقل صلاحية. ويقوم محرك البحث 
بإرسال بيانات عن تلك النتائج المرتبة إلى المستفيد وذلك من خلال واجهة التعامل التي 
ادها المسافد قي [عداد الا سار وهلة العملية لا ترق اکر سن جز هن 
الثانية ممايوحي بمدى سرعة المحركات في أداء عمليات البحث والاسترجاع» وهو ما 
يعطيها قيمة وأهمية كبيرة ويميزها عن غيرها من أدوات البحث والاسترجاع. 


وتعتمد محركات البحث مثل جوجل وياهو وغيرهما في تصميم واجهات البحث 
على إتاحة نمط متميز من أيقونات الببحث يطلق عليها الببحث العمودي (41ء ۷۲٣1‏ 
zig Search (Iskold, 2006‏ ما یل : 


أ بحث الويب العادي Regular web search‏ وهو أکثر أنماط الببحث شهرة 
راتشارا واستخداما من جاتب الباعین والڈی بعتم د على بحت گشافات 
شكل نص تم إعداده باستخدام لغة تكويد النصوص الفائقة أو غيرها من 
آشکال الوثائق التي یمکن إتاحتهاعلی الخط المباشر مثل P2۴۶‏ أو وثائق 
.(Microsoft Office Word, Excel, Power Point, ...etc)‏ 

ف بحث الأخبار News Search‏ والذي یمکن من خلاله ببحث المواقع الإإخبارية 
فة طط لاصحف والمجلات ووکالات الأنباء وعادة مايتم ترتييب النتائج 
المسترجعة من هذه المواقع تاريخيا بناء على تاريخ الخبر أو الموضوع. 
فمشلاً إذا كان أحد الباحثين يريد معلومات عن مبارة كرة قدم فسيتم عرض 
المواقع مرتبة من الأحدث إلى الآقدم. 
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فق. بحث الصور 1me search‏ وتستخدم لحث الصورالتي تم اكتشافها أثناء 
عمليات حصاد مواقع الويب من خلال الزواحف» وعادة ما يتم تكشيف 
الصور باستخدام أسماء ملفات الصور ع۳ه١ءان؟‏ ك”#عةص1 والنصوص 
الا رر اف د تحال وه وا 
الاصطناعي كمحاولة لفهم واكتشاف مضمون الصورة ولكن هذه العملية 
مازالت تسير ببطء. فعلى سبيل المشال يبستطيع محرل الببحث جوجل الآن 
فصل صور الوجوه ورسم خطوط من صور أآخرى. 
۷آ. بحث الفيديو 5٥4۲١١‏ 0ء۷14 ويتم الاعتماد فيه على بحث النصوص 
المصاحبة لملف الفيديو. ويعتمد دقة الببحث في ملفات الفيديو والصور 
على قيام معدي الصور وملفات الفيديو بوصفها وصفا دقيقاً سواء من خلال 
أسماء الملفات أو الميتاداتا أو النصوص المحيطة بهذه الملفات. 
توجد أنماط أخرى من آنماط البحث تتضمنها واجهات التعامل تشمل إمكانية 
بحث المدونات والمجموعات الإخبارية وبحث الإنتاج الفكري العلمي مغل 
.Scholar Search‏ كما تقوم محركات الببحث آخانا بدمج آنواع الببحث المختلفة معا 
في صفحة نتائج محركات البحث (2007 ,إمMay).‏ 


10.3.3 البحث الشخصى 


Personal Search 


يقوم العديد من محركات البحث بإجراء دراسات وتجارب عن الطرق والأساليب 
التي يمكن أن تراعي سلوك المستفيدين عند التعامل مع أدوات ومحركات البحث 
بغخرض التعرف إلى أفضل مجموعة من نتائج البحث للباحثين على الويب. فعلى 
سبيل المثشال عند الببحث عن مصطلح الزواحف فإن الباحث الذي يبحث عن 
معلومات فنية عن مصطلح الزواحف فإنه يحتاج معلومات عن زواحف محركات 
الببحث وليس فصيلة الزواحف في الكائنات الحية. وتشير الدراسات أيضا إلى أن 
ثلث استفسارات المستفيدين هي استفسارات مكررة وفي معظم الأحيان يرجع 
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المستفيد إلى الصفحة نفسها التي رجع إليها من قبل» لذلك يمكن لمحركات البحث 
أن تقوم باختيار الصفحات التي استخدمها المستفيد سابقا وعرضهافي قمة صفحة 
النتائج المسترجعة وذلك عندما يقوم المستفيد بإدخال مصطلحات الاستفسار نفسها 
.(Teevan et. e1., 2006)‏ 


الشخصي عن البحث في الويكي (الموسوعات الحرة) حيث يمكن للباحث أن يدعم 
Promote‏ النتائج بحيث يتم دفعها لقمة صفحة النتائج» lgıiwlyد Remove‏ النتائج 
الضعيفة من قائمة نتائج البحث» إلى جانب إضافة تعليقات ءا١‏ عص هه إلى نتائج 
بعينها. إلا أن جوجل لم يوضح ما إذا كانت المعالجة الشخصية للنتائج سوف تؤثر 
فی نتائج الآخر تن آم )2008 .(Dupont & Anderson,‏ 
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مع العلم أن خوارزميات الفرز والترتيب في غوغل تتأثر برد فعل المستفيد فيما 
يعرف بالصلاحية الراجعة Relevance Feedback‏ عند التعامل مع صفحة النتائج» حیث 
يتم دفع الصفحات التي يكثر الطلب عليها إلى قمة القائمة ويتم دفع الصفحات التي 
يقل الطلب عليها إلى ذيل القائمة. 

ويمكن القول بإيجاز إن الإإنجاز الذي حققته محركات البحث كأداة تساعد على 
بحث ملايين الصفحات والمواقع المتاحة على الويب في قل من ثانية تطور كبير وغير 
مسبوق في آليات البحث والاسترجاع. فكما رأينا فإن محركات البحث لا تقوم ببحث 
الويب نفسها وإنما تقوم ببحث نسخ من صفحات الويب يتم تجميعها من خلال 
الزواحف التي تقوم بحصاد صفحات الويب. ويتم تكشيف النتائج في قواعد بيانات 
محركات البحث التي تتولى ترتيب صفحات الويب بناء على مجموعة من المعاملات 
(العناوين» تردد المصطلحات» حجم الخط وشكل العرض.. الخ)» إضافة إلى مستوی 
أهميتها في شكل الويب من خلال تحليل علاقتها بالصفحات الأخرى على الويب. 
وتجدر الإشارة إلى آنه توجد منافسة بين محركات البحث على عرض أكثر مجموعة 
نتائج صلاحية للبحث» حيث تسعى كل المحركات إلى تطوير أدئها باستمرار للوصول 
إلى أفضل أساليب الفرز والترتيب. وكما تتنافس محركات البحث على عرض أفضل 
نتائج وتطوير مستوى الصلاحية» فإن مواقع الويب تتنافس أيضاً في استخددام أفضل 
أساليب الترقية لكى يتم عرضها كأول نتيجة في قائمة النتائج المسترجعة. 


10.3.4 ملامح البحث فى المحركات 
تيح معظم محر كات البحث آساليب عدة للبحث عن صفحات ومواقع الويب: 
٠‏ البحنث llبڍط Simple Search‏ 


تعد هذه الطريقة أبسط أساليب البحث وأكثرها سرعة» حيث يتم من خلالها 
إجراء البحث بكلمة واحدة أو جملة كاملة. وتتم كتابة الكلمة أو الجملة المطلوب 
الببحث عنهافى صندوق الببحث دون وجود أي روابط تحدد العلاقات بين كلمات 
الببحث. وقد أثبتت الدراسات المتعلقة بتحليل استفسارات المستفيدين أن هذا النمط 
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من فاط البح هوا ر الاسالب ب لئے ميل السغ اوو الى اداس اشا 
لسهولة سرع صياغة البارات اة فهر لا يتاج مسن المسيد أي شبرة ةة 
في عمليات البحث والاسترجاع» هذا إضافة إلى آنه أسرع أنماط البحث» حيث 
لايحتاج الباحث إلى بناء طريقة بحث تحدد العلاقات بين كلمات الاستفسار أو 
الانتقال من الشاشة الرئيسة إلى شاشات أخرى لإجراء عملية البحث. ولكي يستطيع 
الباحث أن يحقق أعلى معدلات الدقة في البحث باستخدام هذا الأسلوب يجب 
إتباع التعليمات التالية: 

Use Spe cifi›c ۲۵۲٣۶ استخدام مصطلحات محددة‎ ۰ 

فكلما كانت المصطلحات المستخدمة في عملية الببحث دالة ومستخدمة من 
جانب المتخصصين في المجالات الموضوعية للدلالة على موضوع الببحث» كان من 
السهل الوصول إلى المعلومات المطلوبةء نظراً لأن معظم محركات البحث تعتمد 
على تكشيف الكلمات المستخدمة فى الصفحات. وهى عادة ما تتضمن المصطلحات 
السائدة بين المتخصصين. ۰ ۰ 

فعلى سبيل المشال إذا كان الباحث يريد معلومات عن جراحات زراعة الأعضاء 
0gin Transplant Surgery‏ فمن الأفضل أن یکتب المصطلح كاملا دون استبعاد 
آي مفهوم من المفاهيم الثلاثة. فالبعض مثلا قد يببحث عن هذا الموضوع باستخدام 
jag Origin Transplant‏ الواضح أن هله الجارة اة غي كاملة حت يمكن 
أن يسترجع مواد لا غلاق ة لها العه ات الجر اة را لان lلnصbطzl Surgery‏ 
غير موجود ضمن مصطلحات الاستفسار. وربمايكون من الأفضل أن تبحث عن 
المشكلة التي تريد حلهاعلى وجه الدقة باستخدام صيغة السؤال مثشل: ها 0W‏ 
.insta11 a memory card in PC‏ ولعىل أكثر الأساليب كفاءة فى مثل هذه الحالات 
هي البحث باستخدام صيغة الجملة أو مايعرف بال Phtasê Seatéh‏ والذي ستتناوله 
بمزيد من التفصيل فيمايلي. مع العلم أن أفضل آساليب البحث كماذكرنامن 
قبل هو استخدام أحد استراتيجيات البحث التي سبق عرضها وفقا للحالة وطبيعة 
الاستفسار الذي يسعى المستفيد إلى معالجته. 
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)+( استخدام علامة الجمع‎ e 


فى بعض الحالات قد تكون فى حاجة إلى التأكد من أن محرل البحث سوف 
يسترجع صفحات تتضمن كل الكلمات التي اشتملت عليها صيغة الببحث أو أن تكون 
أحد هذه الكلمات لايمكن الاستغناء عنها فى الصفحات المسترجعة. وفى هذه 
بالتالي لا يسترجع محرل الببحث أي صفحة إلا إذا كانت تتضمن هذه الكلمة. 

فعلى سبيل المثال قد تحتاج إلى استر جاع صفحة تتضمن معلومات عن اها ٥ا٣‏ 
of Naser ¡n the preparation for 1973 war‏ (دور جمال عبد الناصر فی التحضیر 
لحرب أكتوبر) في هذه الحالة لايمكن استرجاع أي صفحة لا تتضمن جمال عبد 
الناصر وحرب أكتوبر بالتالى تكون الصيغة الملاءمة للبحث كما يلى: 


The Role of +Naser in the preparation for +1973 +War 


بالتالي لا بد أنيقوم محرك البحث باسترجاع صفحات تتضمن كلامن عبد الناصر وحرب 
3. ومن الممكن أن يبسترجع صفحات تتضمن بقية كلمات الاستفسار ولكن محرلك البحث 
سوف يعطى أهمية أكبر لكل من الصفحات التى تتضمن كلامن ناصر وحرب 1973. 

+Windows 2010+bugs : مثال خر‎ 


سوف يقوم محرل البحث باستر جاع الصفحات التي تتضمن هذه المصطلحات 
الثلاثة في الصفحة نفسها مع إعطاء أهمية أكبر للمصطلحات علط »س0ل مس وإعطاء 
أهمية أقل للمصطلح 2010 ويستبعد أي صفحة لا تتضمن أي من هذه المصطلحات. 

وعادة مايكون استخدام علامة الجمع مفيداً عندما تكون النتائج المسترجعة من 
البحث البسيط كبيرة جداأ ولا يمكن للمستفيد الاطلاع عليها جميعافي هذه الحالة 
يكون من المفيد تحديد المصطلحات المحورية والتركيز عليها في البحث من خلال 
وضع علامة الجمع قبلهاء مما يساعد على تضييق نطاق البحث واسترجاع عدد أقل 
من النتائج التي يسترجعها البحث البسيط. 


الفصل العاشر 


٠ه‏ استخدام علامة الطرح (-) 


هذا الموضوع أو مصطلح معين من المصطلحات المرتبطة بهذا الموضوع. على 
سبيل المثال» تخيل نك تحتاج إلى معلومات عن ٣11٣٤٥١‏ 811 وعندما أجريت 
البحث بالمصطلح ١٥۲«ا٣‏ 8:11 وجدت عدداً كبيراً جداً من الصفحات تتناول قضية 
Monica Lewinsky‏ ونت لست متها بهذه القضية فى هذه الحالة سوف تكون فى 
حاجة إلى استبعاد كل الصفحات التى تتناول yإkئصwi e‏ هنم من البحث. من ثم 
تكون علامة الطرح في هذه الحالة ذات أهمية كبيرة» ويكون البحث كما يلي: 


Bill Clinton -Monica -Lewinsky+ 


بيل كلينتون مع استبعاد آي صفحة من ضمن الصفحات التي تعالج كلينتون قد 

مثال آخر قد يكون المستفيد في حاجة إلى استرجاع معلومات عن ويندوز 10 
7" بالتالي يكون المستفيد في حاجة إلى استبعاد هذه الصفحات من خلال 
استخدام الاستراتيجية التالية: 

Windows 10 - Windows 7 -Windows 8+ 

بالتالي يمكن القول إن علامة الطرح مفيدة بصفة عامة في تركيز البحث على 
الجانب الأكثر أهمية واستبعاد الجوانب الهامشية» خحاصة إذا كانت هذه الجوانب 
تسترجع عددا كبيرأً من الصفحات غير مرتبطة بموضوع البحث الأصلي أو باحتياجات 
المستفيد الأساسية. 


» « استخدام علامة التنصيص‎ ٠ 
لقد تعلمنا الآن كيف يمكن أن نجمع النتائج ونطرحهامن خلال استخدام علامات‎ 
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الجمع والطرح. والآن سوف نحاول إلقاء الضوء على عملية الضرب في محركات 
البحث. وتتم عملية الضرب في مجال استرجاع المعلومات من خلال استخدام علامة 
التنصيص» حيث يتم وضع المصطلحات في شكل جملة بين علامة تنصيص فيما يعرف 
بالحث باستخدام الجمل .Phrase Searching‏ ویعد هذا السلوب من أفضل أساليب 
البحث خاصة إذا كانت مصطلحات البحث يمكن صياغتها فى شكل جملة. فعلى سبيل 
المثال في موضوع اح Origin Transplant Surgery‏ تدان الطريقة المثالية لصياغة 
هذا الاستفسار هي وضع كلماته بين علامة تنصيص» مما يعنى أن النتائج التي سوف 
تسترجع لا بد أن تشتمل على هذه الجملة كما وردت في استراتيجية الببحث. 
eڻJl: «Origin Transplant Surgery)»‏ 


«Search Engines Tutorials) : خر‎ Jاڻم‎ 


في هذه الحالة سوف يسترجع محر البحث كل النتائج التي تشتمل على كل هذه 
نتائج البحث سوف تقتصر على هذه الجملة فقط ولكن قد يسترجع محرل البحث 
بعض النتائج التي تشتمل على كلمتين متقاربتين والثالثة قد ترد في أي مكان آخر أو 
ربمايسترجع محرل البحث بعض النتائج التي تشتمل على هذه الكلمات الثلاث 
ولكنهاغير متقاربة» ولكن هذه النتائج عادة ماترد في ذيل قائمة النتائج المسترجعة. 

والخلاصة أن إجراء البحث باستخدام الجملة يساعد على الوصول إلى نتائج 
تشتمل على كلمات الاستفسار كماتم إدخالهافي صندوق البحث» وفي ترتيبها 
نفسه» وذلك من خلال وضع علامات التنصيص حول كلمات الاستفسار. 

وتجدر اللإشارة إلى أن الاتجاه العام في محركات البحث هو استخدام المعامل 
0۸ في الربط بين المصطلحات عند البحث» بينما يرتب الوثائق المسترجعة باستخدام 
المعامل ۸۸2 كخط أول للترتيب يليه المعامل 0۴ كخط ثانٍ فى الترتيب. 


Operators Combining تٽlnاllعll المزج بين‎ ٠ 


من الممكن أن نحتاج في بعض الأحيان إلى المزج بين أكشر من علامة من 
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علامات البحث مثل المزج بين الجمع والطرح والضرب. فعلى سبيل المثال قد 
يمكن إجراء الببحث كما JıلJ: .Bill Clinton Scandals -Monica Lewinsky+‏ 

في هذه الحالة سوف يسترجع محرل البحث كل فضائح بيل كلينتتون مع استبعاد 
فضيحة مونيكا من نتائج البحث» أو ربما يحتاج إلى كل مايتعلق بسياسة أمريكا تجاه 
الشرق الأوسط مع استبعاد كل مايتعلق بالصراع العربي الإسرائيلي: 1 اها 15۸ا 
.Middle East -Israel‏ 

في هذه الحالة سوف يسترجع محرل البحث كل الصفحات التي تتناول دور 
أمريكا في الشرق الأوسط مع استبعاد كل مايتعلق بقضية الصراع العربي الإسرائيلي. 

مثال آخر: «تنظيم المعلومات» +الفهرسة +مارك 21 - الميتاداتا 

في هذا المثال يحتاج الباحث إلى كل ما يتعلق بالمصطلح «تنظيم المعلومات» 
كجملة على أن يكون موضوع الفهرسة ومارك 21 مصطلحات أساسية في قائمة 
النتائج المسترجعة مع استبعاد أي وثيقة تتعامل مع الميتاداتا. 

مثال آخر: قد يحتاج المستفيد إلى استرجاع صفحات عن عمليات زرع الأعضاء 
مع التركيز على زراعة الكبد واستبعاد عمليات زرع الكلى. 


Origin Transplant Surgery +Lever Transplant -Kidney+ :ةجيتlرتصالا‎ 


ون اجکی الاک ا س آرار الم الرای ای ہے اة ادت 
بالكلمات الدالة باستخدام معاملات الربط البوليني N01‏ / 0۴ / ۸۸- أو البحث 
بالجمل الكاملة أو البحث التجاوري proximity Search‏ أو إمکانيات ıllڙتر Truncation‏ 
والجذع tem min8‏ کانت تستخدم لفترة طويلة في نظم الاسترجاع التقليدية مثل قواعد 
البيانات الببليوجرافية ولكنها كانت في غاية الصعوبة بالنسبة للمستفيد العادي مما اضطر 
القائمين على نظم البحث والاسترجاع إلى الاعتماد على الباحثين المتخصصين لإجراء 
الببحوث للمستفيدين»› فما عرف بو سيط البحث 14٥٣۲ء1 Seach‏ إلا أن محرکات 
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الببحث استطاعت التغلب على هذه المشكلة من خلال استخدام علامات أكثر سهولة 


العالمية ومدى قدرتها على استخدام أساليب البحث السابق عرضها: 


جدول (10.2) معاملات البحث فی محر كات البحث ودلالاتها 
العلامة دلالتها 
+ لا بد من وجود مصطلح البحث في الصفحات المسترجعة 


_ استبعاد الصفحات التى تتضمن المصطلحات التى تلى علامة الطرح 


» » استر جاع الصفحات التي تتضمن الحملة بنفس ترتيب وصياغة الصطلحات 
1. البحث المعقد باستخدام معاملات المنطق البوليني: 


على الرغم من صعوبة البحث بالمنطق البوليني خاصة عندما تكون استفسارات 
المستفيدين معقدة وطويلة» إلا أن دراسات سلوكيات المستفيدين عند تعاملهم 
مع محركات البحث أثبتت أن المستفيدين يميلون إلى استخدام عدد قليل من 
المصطلحات في عمليات البحث والاسترجاع من الشبكة العنكبوتية. فقد أوضحت 
تحليلات استفسارات المستفيدين على الويب أن متوسط عدد المصطلحات يبلغ 2.4 
مصطلح» بينما متوسط عدد المصطلحات في نظم الاسترجاع التقليدية بلغ من 12 إلى 
5 مصطلح. وقد أعطى ذلك الفرصة لمحركات البحث لبناء أساليب بحث تعتمد 
على استخدام المنطق البوليني. وسوف نستعرض فيما يلي العلامات المستخدمة في 
باستخدام عدد قليل من المصطلحات. 


سبقت الاشارة إلى أن عمليات البحث البولينى توظف ثلاثة روابط أساسية للربط 
بين المصطلحات هی N01‏ ,0۸ ,۸۸2 ولا تختلف هذه العلامات فى دلالتها كثيراً 
عن دلالة علامات الجمع والطرح والضرب. ويغطي هذا الجزء طريقة معالجة أوامر 
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المنطق البوليني من خلال محركات البحث على افتراض أن القارئ قد استوعب 
آلا سالب المابقة والکی سوت اہ کےا ھل اعاب ا پاے: 


0۴ - المعامل أو‎ ٠ 

ویستخدم هذاالمعامل للدلالة لتوسيع نطاق البحث عن المفاهيم المتشابهة 
بمعنى أو - أي حيث يعني استرجاع الصفحات التي يظهر فيها أي من المصطلحات 
الواردة فى استراتيجية البحث. بمعنى إذا كان لدينا استراتيجية ببحث مكونة من ثلاثة 
مصطلحات Libraries OR Archives OR Museums :JلJı ln‏ 


Libraries 20 


Museums | Archive 
15 15 


شكل رقم (10.5) استخدام معامل الربط البوليني 0۸ في البحث عن المعلومات 


سوف يقوم محرل البحث باسترجاع كل الصفحات التي تتضمن آي مصطلح من 
المصطلحات الثلاثةء فإذا كانت الصفحات التى تتضمن المصطلحات الثلاثة السابقة 

مع مراعاة أن بعض الصفحات قد تعالج أكثر من موضوع في الوقت نفسه» هذه 
الصفحات فى هذه الحالة تعد مكررات لا بد من استبعادها فمثلا: 
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Libraries And Archives 4 Pages 

Libraries And Museum 3 Pages 

Archives And Museums 4 pages 

Libraries And Archives And Museums 2 page 


يكون عدد الوثائق المسترجعة في هذه الحالة يشتمل على (16 + 11+ 10= 
7 صفحة) معنى ذلك أن هناك 13 وثيقة تكرر بها مصطلحان ووثيقتان فقط تكرر 
بهما المصطلحات الثلاثة. بالتالي يقوم محرل البحث باستبعاد كل الوثائق المكررة 
والاحتفاظ بنسخة فريدة من أي صفحة مسترجعة. 


AND لJلماعملا‎ ٠ 


يستخدم هذا المعامل مع المفاهيم المتنوعة في دلالتها لتحقيق الربط بينهاء ويعني 
استرجاع كل الصفحات التي تتضمن جميع المصطلحات الواردة في استراتيجية 
الببحث معا بحيث إذا كان أي من الصفحات لم يرد فيها أي من المصطلحات المحددة 
في استراتيجية البحث يقوم محرك البحث باستبعادها من قائمة النتائج المسترجعة. 


مJli: Globalization AND Economic AND Developing Countries‏ 
تشير هذه الاستراتيجية إلى ضرورة أن تتضمن كل الصفحات المسترجعة على 
كل المصطلحات الواردة في استراتيجية البحث. بمعنى أن تعالج كل الصفحات 

مثاJ‏ îخر:‏ sٿT1ool Internet AND Search AND‏ 
تشير هذه الاستراتيجية إلى أن كل الصفحات المسترجعة لا بد أن تتضمن كل 
المصطلحات الواردة في استراتيجية البحث. بالتالي لكي تسترجع أي صفحة لا بد أن 


تعالج موضوع الإنترنت والمحركات والأدوات. وكماهو واضح من الشكل أنه نقطة 
التقاطع بين المصطلحات الثلاثة. 


الفصل العاشر 


ي 
a ıê ۵‏ 


شكل رقم (10.6 ) استخدام معامل الربط البوليني ۸۸2 في البحث عن المعلومات 
٠‏ المعامل 0× 


يستخدم هذا المعامل مع المفاهيم المرتبطة في الدلالة والتي تشمل علاقات 
التشابه أو التداخل الهرمى أو التوارث الهرمى» ويعنى ماعدا أو باستثناء» ويشير إلى 
استبعاد الصفحات التي تعالج المصطلحات الواردة بعد المعامل N01‏ من قائمة 
النتائج المسترجعة. 


Human AND Origin AND Transplant NOT kidney :لlٹiم‎ 


تشير هذه الاستراتيجية إلى ضرورة استرجاع كل الصفحات التي تعالج موضوع 
زراعة الأعضاء للبشر مع ضرورة استبعاد عمليات زراعة الكلى من النتائج المسترجعة. 

ونظرا لكفاءة محر كات بحث الشبكة العنكبوثية قامت العديد من شر كات قواعد البيانات 
المتاحة على الخط المباشر بشراء محركات لكي تستخدمها كأداة أساسية لبحث قواعد 
بيانات النصوص الكاملة» ومن أمثلة محركات البحث واسعة الانتشار في هذا المجال 
محرل البحث »۴۵٤1‏ ومحرل البحث 1۳0ءز۷آ۷ حيث يتميز كل منهما بإمكانيات بناء العناقيد 
«التجميع للمتشابهات وتفريعها) 2١۲ء†ئ1٤.‏ والتصنيف إلى فئات ١g0۲17410ع)2٤.‏ 


تمتيل المعرفة على الإنترنت 


Human 


kidney Origin 


Transplant 


شكل رقم (10.7) استخدام معامل الربط البوليني N01‏ في البحث عن المعلومات 


10.3 محركات البحث المتخصصة 


عار لت مر كات البست مااعقة رتب الفطرر والنمر الماقل فى الك الكرةة 
ولكن يبدو أن ذلك أمر في غاية الصعوبة» إن لم يكن مستحيلاء هذا إضافة إلى 
التنوع الهائل في آنواع الوثائق والحاجة إلى أساليب أكثر فعالية قادرة على التعامل 
مع الموضوعات ذات الطبيعة الخاصة. وقد دعا ذلك إلى ظهور نوعية جديدة من 
محر كات الببحث أطلق عليها محر كات البحث المتخصصة Specialized Search‏ 
B6‏ للتغلب على مشكلات التغطية التى تواجهها محركات الببحث العامة. 
وتجدر الإشارة إلى أن ظهور لغة التكويد الرس Extensible Mark Up Language‏ 
- ساف غل رر هاا الاجا عة رة 

وتعتمد محركات البحث المتخصصة على نوع مميز من الزواحف يطلق عليه 
الزواحف المر کزة ed CW 1٤۲‏ ںءه۴» حيث إنها تر كز أثناء عمليات تجميع صفحات 
الويب على مجموعة من المؤسسات التي لها اهتمامات موضوعية تدخل في 


الفصل العاشر 


نطاق التخصص الموضوعي لمحرل البحث المتخصص,» فتقوم بتتبع خوادم تلك 
المؤسسات وتجميع المواقع والصفحات التي تشملها تلك الخوادم إضافة إلى متابعة 
الصفحات والمواقع المرتبطة با )2001 .(Ester & Kriegel,‏ 


ويمكن تعريف محركات البحث المتخصصة بآنها «تلك المحركات التي تقتصر 
في عملية التغطية والبحث إماعلى مجال موضوعي معين أو نطاق جغرافي محدد 
name‏ منة 0ط أو نوع معين من الملفات مثل الوسائط المتعددة أو الملفات او 
و الصور.. الخ). وتتنوع المحركات المتخصصة فمنها محركات البحث التي تغخطي 
نطاقا جغر افیا معینا Country and Regional search engines‏ -ویمکن الحصول علی 
قائمة شاملة بمحركات البحث المتخصصة فى نطاقات جغرافية محددة من خلال 
الموقع iw lcm eounliyée lis‏ وتقتصر مجموعة المحركات التي 
يضمها هذا الموقع على البحث في دول أو أقاليم جغرافية معينة. بمعنى أنه يهتم 
بتجميع وبحث الخوادم في نطاقات جغرافية محددة. 

كما تش مل محركات الت العف هة مر ضرعا محر كات تى مر ضرعا 
ددا الطب مثل gî Medhunt- http://www.hon.ch/MedHunt‏ تقتصر على نوع 
معين من الملفات كالصور سواء الثابتة أو المتحركة أو الصوت فيمايعرف بمحركات 
بحث الو سائط المتعددة .http://www.musicsearche1.c0¬ Jia‏ 


ویشیر بریس )2003 (Price,‏ إلى أن محرکات المتخصصة يمكن تقسيمها لأربع 
فشات اساسية هی: 


1 محركات بحث متخصصة في شكل أو موضوع معين والتي تمشل جزءاً 
من محركات البحث العامة. وهذا النمط موجود الآن في معظم محركات 
البحث العامة التي تتيح إمكانية بحث الملفات ذات الطبيعة الخاصة مشل 
الصور وملفات الفيديو» من خلال واجهة تعامل خاصة ومنها ما يتيح 
واجهات تعامل خاصة للأطفال تتمتع بإمكانيات تساعد على تنقية ع٣‏ إم)]۴ 
اعات المع جاه الجر اد السا ا لا الات العم تة وى 
أمثلة هذه النوعية مايلي: 


تمتيل المعرفة على الإنترنت 


Google Images (images only) 
http://images.google.com 


يعمل هذاالمحرك كجزء من محرل البحث 600818 وهو متخصص فى بحث 
الضوز الماحة غلى شعكة الإا نترنت: 

Lycos Pictures and Sounds - 

/http://multimedia.lycos.com 


زل هدا الر ا رفا کجو من حر الوحت ونوا وهر مخ ص فی 


Ask Jeeves For Kids 
/http://www.ajkids.com 


يقوم بالبحث عن المواد الخاصة بالأطفال مثل أفلام الكارتون والصور والمواد 
التعليمية وهو أيضاً كجزء من المحرك ع۵۷٥[‏ )يA.‏ 


Yahooligans 
/http://www.yahooligans.com 


تم تصميم هذا المحرك كجزء من محرل البحث ¥4100 وهو متخصص في مواد 
الأطفال من سن 7 إلى 12 عاماًء وهو من أقدم محركات البحث المتخصصة للأطفال 
وقد تم إنشاؤه في مارس 1996. 

2 محركات بحث متخصصة قائمة بذاتها ولها برامج خاصة للزحف والتكشيف 
والببحث. وتركز في تخطيتها على مجالات موضوعية معينة أو آنواع معينة من 
الملفات مثل محركات بحث الوسائط المتعددة. ومن أبرز أمثلة هذه النوعية 
من المحركات ما يلي: 

Health On The Net: MedHunt 
/http://www.hon.ch/MedHunt 
MedicineNet.com 


http://www.medicinenet.com/script/main/hp.asp 


الفصل العاشر 


وهى محر كات بحث متخصصة فى مصادر المعلومات الطبية التى يشارك بهاأكثر 
من 500 طبيب ومتخصص من دول مختلفة على رأسها أمريكا وكندا. 


.3 


محركات بحث تستخدم في البحث داخل الأدلة الموضوعية العامة حيث 
يمكن من خلالها إدخال مصطلحات في صندوق بحث يشبه صندوق البحث 
في المحركات التقليدية ثم تستخدم تلك المحركات في بحث الدليل 
الموضوعي. وهذا هو النمط السائد في معظم أدلة الببحث العربية التي تقدم 
إمكانيات للبحث مثل فارس نت والردادي والبوابة العربية وغيرها. 
محركات بحث متخصصة صّممت خصيصاً لكي تستخدم في بحث مواقع 
محددة تشتمل على قواعد بيانات خلفية يطلق عليها صفحات الخوادم 
النشطة Serve ۴22e‏ مtivءA.‏ وتتولى هذه المحركات تلقي استفسارات 
هن اا دا اه چیو ا لی 
الإجابات وهو نمط سائد في كثير من مواقع الشركات والمؤسسات التي لها 
بيانات خاصة. وتجدر الإشارة إلى أن هذه الصفحات عادة ما يطلق عليها 
الصفحات الديناميكية sععه۴‏ cنصهمر0.‏ مثال محرك بحث شر کة ۸104701 
لتجارة الكتب 1))p://۷۷W.4013Z01.00۳١‏ هو متحرك بحث متخصص 
للببحث في قاعدة بيانات شر كة ۸.420١‏ للتجارة في مصادر المعلومات من 
کتب وغيرها. 


4 10.4 ما وراء المحركات 


Meta Search Engines 


تعد ما وراء المحركات واحدة من أحدث أدوات بحث واسترجاع مصادر 
المعلومات المتاحة على الشبكة العنكبوتية في الوقت الحالي. وتقوم هذه المحركات 
اعا وى اس ارات المس دين و ارسالها لى مجمرغة تاا م كات 
ايحت السكهة ,ئم فاي الاح مخ هة الجر كات شرم بد تجا رالات 
فرزها في قائمة مرتبة وفقا لخوارزميات الدمج وllترتmı -Merging Algorithms‏ 


تمتيل المعرفة على الإنترنت 


هذا إضافة إلى بعض العمليات الأخرى مثل تحليل الاستفسارات وترجمتهالكى 
اشا من القيمة المضافة لعمليات التشغیل التبادلی ,ا1ا ا۲۵٥‏ م٥۲ام[-‏ التى توفرها 
خوارزمیات الدمج والتر تب )2000 .(Yang, X. & Zhang,‏ 

وتتمثل المشكلة الرئيسة فى بناء ما وراء محركات فى ثلاثة تحديات أساسية هى: 


ا ار م ااا جت الا ر تان فان اد اا 
° دمج النتائج المسترجعة. 

٠‏ ترتيب وفرز النتائج المسترجعة. 

وفي مايلي عرض للأسس والمعايير المستخدمة في بناء ما وراء المحركات في 
كل مرحلة من المراحل الفلاث السابقة: 


10.4.1 اختيار محركات البحث المستقلة وتجميعها 
في قائمة موحدة وترتيبها وفقَاً لأولويات الدمجح 
تعرف هذه العملية في الإأنتاج الفكري المتخصص في مجال استرجاع المعلومات 
بعملية اختيار وفرز قواعد البيانات »Database Selection and Ranking‏ حیث يقوم 
الفريق في هذه المرحلة بتجميع قوائم شاملة بمحركات البحث المستقلة للاختيار 
من بينها وفقاً لحد المعايير التالية (2004 ,لص .)M0!a‏ 
| : الت لية في محركات الب ۴ Il‏ تقلة 


Individual Search Engines Coverage 
في هذه الحالة يقوم فريق العمل بتجميع قائمة شاملة بأشهر محركات البحث‎ 
المتاحة وأكثرها شمولاً من حيث عدد الصفحات التي تم تكشيفها والمتاحة فعليا‎ 


الفصل العاشر 


برنامج للفرز 8۲۵۳٥إP Mergin‏ حيث يقو م هذا البرنامج بقرز قواعد البيانات وترتيبها 

تنازلياً من الأكثر شمولاً إلى الأقل فالأقل. ونظراً لأن محركات البحث المستقلة ثنوع 

في تغطيتها لمصادر المعلومات المتاحة على شبكة الإنترنت من حيث نوع صفحات 

المعلومات (مثل صفحات الويب» صفحات البي دي إف» صفحات الأوفيس» أو 

قواعد البيانات» الصور, الفيديوهات.. الخ) فتتم المقارنة بين هذه الأنواع المختلفة 

رتبب المح ر كات رفا للا اجات الاأساسة لماوراء المحركات ولس الساسات 

المتبعة فى المحركات المستقلة. وتجدر الإشارة هنا إلى أنه توجد مصادر متعددة 

EE‏ توفر إحصاءات دقيقة عن معدلات التغطية فى محركات الببحث 
المستقلة. ومن أبرز هذه المصادر: 

Search Engine Watch 

http://searchenginewatch.com 

Search Engine List 

http://www.thesearchenginelist.com 


Search Engine Market Share Worldwide | StatCounter Global Stats 


http://gs.statcounter.com/search-engine-market-share 
Query ا٥۵4 معدلات الاستخدام أو الاستفسار‎ .ا١‎ 


في هذه الحالة يتم تحديد عدد الاستفسارات التي توجه إلى كل محرك بحث 
فلي خا و هام المحرك الأكتر قارا إلى الأتل اسار كما أن عض نا 
ورا ال هحر قات ا خد فى الأعمار تة ال شارات التاجهة ال تة الا ارات 
ا ا ا ها ات ی خان ا ا سارت 
آو ما يعرف بملف اللوج ۴|1۴ ع٥ا‏ في كل محرك مستقل على حدة. لكن من عيوب 
هذه الطريقة آنها تعطلب قدرا كيرا من التعاون من المحركات المستقلة» وهو أمر 
غير مرغوب فيه في تلك البيئة» نظرا للطبيعة التنافسية الشديدة التي تحكم هذا 
المجال. فالحصول على هذه الملفات قد يؤدي إلى الكشف عن أساليب تحليل 
الاستفسارات والخوارزميات المستخدمة في عمليات التكشيف والاسترجاع. هذا 
وإن كانت هذه الأمور من السهل الكشف عنها من خلال الفحص والتحليل الدقيق 
للنتائج المسترجعة والأساليب المفضلة لدى هذه المحركات في بناء استراتيجيات 


تمتيل المعرفة على الإنترنت 


البحث. ولعل أبرز نماذج التعاون في هذا المجال هو ما قدمته محركات البحث 
المستقلة )Excite, AltaVista and Ask) Jeeves)‏ - للہباحثین من ملفات بغرض 
التحليل والدراسة؛ للتعرف إلى طبيعة الاستضارات الموجهة إلى هذه المخركات. 
ومن أمثلة الدراسات التى تناولت محركات البحث المستقلة بالفحص والتحليل ما 
يلي )2002 .(Mohamed, 2004; Mihe & Lui,‏ 


Response Time ãبlجتawږlاJl وقت‎ .III 


يتم قياس متوسط الوقت الذي يستغرقه كل محرك على حدة في إجراء الببحث 
واستعراض النتائج» ثم يتم ترتيب المحركات وفقاً لسرعة الاستجابة من الأكفاً إلى 
الأقل كفاءة. هذا وإن كان الفارق بين محركات الببحث من حيث وقت الاستجابة 
هو فارق غير محسوس» إلا أن مؤشر وقت الاستجابة عامل في غاية الأهمية بالنسبة 
لمطوري ما وراء المحركات» نظراً لما تتطلبه العملية من إجراء البحث في أكثر من 
محر مسقل بالالى فة سرغ المح ر كات المسهاة كر اة غلى سرغة ا 
وراء المحركات. وهذه الطريقة سوف تضمن كفاءة عالية من حيث سرعة الاستجابة 
ولكنها لا يمكن أن تضمن بأي حال من الأحوال كفاءة وفعالية المواد المسترجعة. 


* 1 C0 I1 کات‎ Il من‎ * 2 8 I1 يد النتائح‎ 4 1V 
Individual Search Engines Results Evaluation 


ويشمل التقييم ثلاثة معايير أساسية من مقاييس التقييم في مجال استرجاع 
المعلومات وھىی: 


الاستدعاء والدقة والترتيب أو الفرز. ويوجد العديد من الدراسات التى قارنت بين محركات 
لوحن حة ا اام الم جت رق فا الو انات ال تار بن رات 
البحث في بيئتها الطبيعية من حيث مقومات البحث والمجموعات وطبيعة الاستفسارات. 
ويعرف هذاالاتجاه في الآدبيات بالاتجاه العملي .0perationa1 Approach‏ کما یوجد نوع 
آخر من الدراسات تولى المقارنة بين محركات البحث المستقلة عن طريق فصل عناصر 
المقارنة لتجربتها في المعمل. ويعرف هذاالاتجاه بالاتجاه المعملي .Laboratory Approach‏ 
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حيث تتم التجارب على عناصر معينة في محركات البحث دون العناصر الآخرى للتعرف على 
مد تأثيرها فى كفاءة ودقة اللاسترجاع )2000 .(Yanh & Zang,‏ 


10.4.2 دمح النتائج المسترجعة 


Fusing or Combining Search Results 


المعلومات. وهذه الطرق هى: 


ا. دمج النتائج المسترجعة وفقاً لاستراتيجيات بحث متنوعة 


Fusing Different Search Strategies 


وتعتمد هذه الطريقة على التنويع في طريقة بناء استراتيجية البحث لنفس موضوع 
الاستفسار» حيث يتم توجيه هذه الأستراتيجيات المتنوعة للمحرك نفسه. ثم يتم دمج 
النتائج المسترجعة بعد استبعاد النتائج المکررة .ver1ap ped Rests‏ بمعنی أنه عند 
ولكنهاتدور في مجملها حول موضوع البحث الأساسي مع وجود قدر كبير من التداخل 
والتكرار بين نتائج هذه الاستراتيجيات المتنوعة. وقد أثبت كل من سيراسيفيك وكانتور 
)Saracevic & Kantor, 1998)‏ آن هذه العملية تساعد على استرجاع نتائج مختلفة ولكنها 
متقاربة» كما أن بعض هذه النتائج تكون صالحة والبعض الآخر يكون غير صالح. 

1. دمج النتائج المسترجعة وفقَاً لأساليب متنوعة لوزن المصطلحات 


Fusing According to Term Weighting Schemes 


في هذه الحالة يتم استخدام مجموعة موحدة من الوثائق في بناء قواعد بيانات عدة 
وفقا لطرق متنوعة لوزن المصطلحات. ثم يتم توجيه الاستفسار نفسه لكل قاعدة بيانات 
على حدة» ثم يتم دمج النتائج المسترجعة من قواعد البيانات بعد استبعاد المكررات. 
وقد أكدلي أن استخدام أكثر من طريقة لوزن المصطلحات يؤدي إلى تحسين كفاءة 
الاسترجاع )1995 .(Lee,‏ 


تمتيل المعرفة على الإنترنت 


اء دمج النتائج وفقاً لأأجزاء الوتائق ١١‏ < له واه 


Data Fusion According to Document Representation 


تعتمد هذه الطريقة على التنويع في أجزاء الوثائق المكشفة» حيث يتم إعداد 
قواعد بيانات مستقلة حسب الجزء المكشف من الوثيقة. فعلى سبيل المثال يتم 
تكشيف عناوين الوثائق فقط في قاعدة بيانات ويتم تكشيف المستخلصات في 
قاعدة بيانات أخرى. ويتم إجراء البحث في كل قاعدة بيانات على حدة» ثم تدمج 
النتائج المسترجعة بعد استبعاد المكررات» لتحديد مدى تأثير هذه الأجزاء في 
فعالية الاسترجاع. وقد اكتشف كاتزر وزملاؤه أن إجراء البحث على أجزاء متنوعة 
من الوثيقة يؤدي إلى استرجاع نتائج بنفس الكفاءة والفعالية» ممايؤدي إلى زيادة 
معدلات الدقة والاستدعاء عنددمج هله النتائج )2982 .(Katzer, et. el.,‏ 


۷. دمج النتائج المسترجعة من نظم استرجاع متعددة 
Data Fusion According to Multiple Retrieval Systems‏ 
التكشيف أو بناء استراتيجيات البحث أو أجزاء الوثائق المكشفة. آما في هذا النموذج فيتم 
التنويع فی المصدر بأكمله. حیث يتم الدمج من مصادر متعددة Sources‏ eامip)اMu.‏ وهذا 
استرجاع المعلومات 239.50. ومن الفروق الأساسية أيضاً أن الطرق الثلاث السابقة أكشف 
مجموعة موحدة من الوثائق» بينمايعتمد هذا النموذج على مجموعة مختلفة من الوثائق 
س وجود قدر من التداخل والتكرار بین هذه المصادر المتنوعة )2004 .(Mohamed,‏ 


وتجدر الإشارة هنا إلى أنه توجد أربع حالات لمجموعة الوثائق المكشفة تصلح 
لعملية دمج البيانات. وهذه الحالات هي (2000 Z2٣2,‏ & ع«۷a):‏ 


Equivalent Case تساو‎ ةll>‎ ° 


٠‏ وهى الحالة التى تكون فيها الوثائق المكشفة فى كل قواعد البيانات واحدة 
دون آي اختلاف فيما بينها. 


الفصل العاشر 


Inclusion Case Jlnتشٺلا‎ ll ° 

٠١‏ وهى الحالة التى تكون فيها إحدى قواعد البيانات شاملة وقواعد البيانات 
الأخرى تمن جا من الرثائق المكشغفة فى قاعدة البياتات الشامكة. 

Disjoint Case |لٺختإںف‎ lw ° 

ه٠‏ وهي الحالة التى لا يوجد فيها آي تشابه بين قواعد البيانات من حيث 

Overlapping Case رlرکتllو حالة التداخل‎ ٠ 

٠‏ هي الحالة التي تتداخل فيها قواعد البيانات من حيث مجموعة الوثائق 
المكشفة. وهذه هى الحالة السائدة فى كل ماوراء المحركات المتاحة على 
شبكة الإنترنت. 


@ 10.4.3 فرز وترتيب النتائج المسترجعة 
Results Merging / Ranking‏ 
تعد هذه الخطوة أكثر الخطوات أهمية في عملية دمج النتائج المسترجعة في ما 
وراء المحركات» حيث إن معظم هذه المحركات عادة ما تستخدم الوسائل والأساليب 
نفسها في الخطوتين السابقتين» بينما يعد الأسلوب المستخدم في مرحلة الفرز 
يستخدمان لتحديد الترتيب الأمشل للنتائج المسترجعة وهما: 
- التحميلJ‏ وllتعحlيJ Downloading and Analyzing‏ 


Merging According to Logical Assumptions ةzaطinll الترتيب و فقاً للافتر اضات‎ - 


وفي مايلي عرض لكل أسلوب مع التركيز على الخوارزميات المستخدمة 
والأساس الذي بنيت عليه: 


تمتيل المعرفة على الإنترنت 


ا. أسلوب التحميل والتحليل 


يعرف هذا الأسلوب في أدبيات استرجاع المعلومات بأسلوب فحص أو تفتيش 
الوثائق 1112ء۴ .Dcuments‏ ویعتمد هذا الأسلوب على تحميل الوثائق المسترجعة 
بأكملها أو أجزاء منها من خادم محرل البحث المستقل إلى خادم ما وراء المحركات. 
ثم يتم تحليل هذه الوثائق باستخدام وسائل متعددة لعل أشهرها حساب درجة التشابه 
Similarity Score‏ باستخدام طرق متنوعة لوزن الnصbطJ>حlت Term Weighting)‏ 
.Schemes (Meng & Liu 2002‏ وتستخدم درجة التشابه في ترتيب الوثائق حسب 
ارتباطها بموضوع الاستفسار» وحساب درجة التشابه بين مصطلحات الاستفسار 
والكلمات المكشفة من الوثيقة. ويوجد العديد من نظم التحميل والتحليل المتاحة 
حالياًء ولعل أبرزها 0R1, a4 ٤۷¥‏ ,ssزه‏ 6ع . وتجدر الإشارة هنا إلى أن هذه 
النظم عادة ما تتضمن خوارزميات للاختيار والتحميل والتحليل والدمج في الوقت 
نفسه» حيث إنها عادة ما تتضمن كل الوظائف اللازمة لما وراء المحركات. 


ولعل أبرز مميزات أسلوب التحميل والتحليل هو الاعتماد على سلوب موحد 
فى التحليل والترتيب بصرف النظر عن الخوارزميات التى تستخدمها المحركات 
المستقلة في الترتيب. ولهذا النموذج عيوب عدة» لعل أبرزها: 
1. أنه يبحتاج إلى وقت طويل لتحميل وتحليل الوثائق وهو ما لا يتناسب مع 
2. آنه يتطلب مساحات تخزين كبيرة» حيث يتم تحميل الوثائق المسترجعة على 
والتحليل والفرز. 
3. يحتاج هذا النموذج إلى أنظمة استرجاع ذات كفاءة عالية لكي تقوم بعمليات 
المستقلة والتحميل والتحليل وبناء ملفات الوثائق واستبعاد المكررات وبناء القوائم 
الموحدة» ثم في النهاية استخدام سلوب موحد لعرض النتائج المسترجعة» كل 


الفصل العاشر 


هذه العمليات لا بد أن تتم على الهواء" را۴ ١1ا‏ «0 وهي عمليات معقدة ودقيقة 
إلى درجة بعيدة. ويصلح هذا النموذج ويعمل بكفاءة عالية في نظم التجميع على 
خط lnllشر .Aggregator Online Systems‏ وهي النظم التي يقوم فيها المورد 
جوع آكیر عد كن من قاع يانات ريا سرج عاي العا 
المباشر. بالتالي فإن هذه البيثة تسمح بقدر كبير من التعاون بين قواعد البيانات 
المستقلة ونظام التجميع. ولعل أبرز نموذج لذلك مابحدث في أدوات الاكتشاف 
مژJ Summon, EDS, MUSE Discovery‏ وغیرها وهو ما لا یتوافر فی بيئْة الويب 
التي تقوم على التنافس الشديد بين محركات البحث. ٠‏ 


اا. اسلوب الترتيب وفقَاً للافتراضات المنطقية 


Merging Upon Logical Assumptions 


يعتمد هذا الأسلوب على استخدام الترتيب الأصلي للوثائق المسترجعة من 
المحركات المستقلة في إنتاج قائمة موحدة من خلال بناء خوارزميات فرز وترتيب 
تعتمد على الافتراضات المنطقية وتصلح أن تستخدم في ترتيب الصفحات المسترجعة 
باللاعتماد على البيانات المتوافرة من المحركات المستقلة عن تريب الصفحات 
وحجم قاعدة البيانات وأهمية تلك الصفحات بصفة عامة. ومن أبرز الخوارزميات 
المستخدمة في هذا النموذج: 

ا1 الحنتو وlلإڌدiج Interleave‏ 

تعتمد هذه الطريقة على ترتيب قواعد البيانات ترتيبا تنازلياً وفقا لمقاييس متعددة 
مثل شمول التغطيةء دقة الاسترجاع» أو وقت الاستجابة. ثم يتم ترتيب الوثائق وفقاً 
لترتيب قواعد البيانات» حيث تأتي الوثيقة رقم 1 من قاعدة البيانات رقم 1 في 
الترتيب رقم 1 في القائمة الموحدة» تليها الوثيقة رقم 1 من قاعدة البيانات رقم 2» 
ثم الوثيقة رقم 1 من قاعدة البيانات رقم 3» ثم الوثيقة رقم 2 من قاعدة البيانات رقم 
1 وهكذا إلى أن يتم الحصول على العدد المرغوب من الوثائق في القائمة الموحدة 
.(Meng & Liu 2002)‏ 
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ويستند نموذج الحشو والإدراج على افتراض أن الوثيقة المسترجعة من محرك 
بحث أكثر أهمية ربما تكون أفضل من وثيقة أخرى لها الترتيب نفسه» واسترجعت 
قائمة المحركات المستقلة. 


۷. تحویل أرقام الوثائق إلى رقم تشابه عام 


Convert Document Rank to Global Similarity Scores 

قام لي بتصميم نموذج لتر ثبب القوائم النهائية يعرف باتجاه درجة التشابه. 
ويستخدم هذا النموذج الترتيب الأصلي للصفحات الذي تنتجه المحركات المستقلة 
من أجل ترتيب قوائمها في إنتاج القائمة الموحدة. ويعتمد هذاالنموذج على المعادلة 
التالية (1997 ,عع). 

والافتراض الأساسى هنا أن الوثيقة المسترجعة ضمن عدد أكبر من الوثائق أفضل 
من وثيقة أخرى لها الترتيب نفسه ومسترجعة ضمن عدد أقل من الوثائق. فعلى سبيل 
المشال» فإن الوثيقة رقم 1 المسترجعة ضمن آلف وثيقة تعد أفضل من وثيقة رقم 1 
ومسترجعة ضمن خمسمئة وثيقة. 
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عدد الوثائق المسترجعة من المحرك المستقلة 


كماقام كل من يونو ولي بإعداد معادلة لتحويل رقم الوثيقة المحلي )ة۸ 1021 
core‏ إلى رقم تشابه عام Score‏ arityاSimi‏ a1طoاG‏ من خلال تطبيق المعادلة التالية 
.(Yuwono & Lee, 1996)‏ 


(#) على الهواء را۴ 0١1۴۴‏ تعني أن المستفيد على اتصال مباشر بالخادم الذي يقوم بأداء 
كل هذه العمليات المذكورة. 
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نفترض آن لکل استفسار فى ترتبب محرك الببحث 01 هو نع وآن منص هو ترتيب 
آخر قاعدة بيانات فى القائمة» ۲هو الترتيب المحلى للوثيقة المسترجعة» 8 هى درجة 
التشابه العام. والمعادلة المستخدمة في ترتيب القائمة النهائية: 
g =1- (r-1) * Fi‏ 
حیث إن ۴ ھی: 
(Fi = (rmin) / (m * ri‏ 
وإن " تمثل العدد المرغوب من الوثائق فى القائمة النهائية. 
فعلی سبيل المثال نفترض وجود قاعدتي بیانات 1 و02 ونفترض أن ترتیبهم 0.2 = ۲1 
و0.5 = ۲2 ونفترض أن العدد الكلي المطلوب من الوثائق هو أربع وثائق» بالتالي فإن: 
rmin = 0.2 , F1 = 0.25, F2 =1, m =4‏ 
روشا للسادلة فان ال ر تاتق الغلا ت الأر لى فى 51 سرف بحصلرن غا رجات 
تشابه 1, 0.75 0.5 على الترالى. والرثاتى اللات الأولى من 52 سروف يصاون 
على درجات تشابه 1 0.9. 0.8 على التوالي. من ثم فإن القائمة النهائية سوف تتضمن 
ثلاث وثائق من 22 ووثيقة واحدة من 01 هم على التوالي: 1 1 0.8.0.9. 


@ 10.4.4 نماذج لما وراء المحركات المتاحة على شبكة الإنترنت 
لقد ظهر العديد من أدوات البحث التي تستخدم تقنية ما وراء المحركات خلال 
الآأعوام القليلة الماضية. ويمكن الوصول إلى قوائم شاملة بتجارب بناء ما وراء 
المحركات من موقع رصد ومشاهدة تطورات محركات البحث: 
Search Engine Watch http://searchenginewatch.com‏ 
وسوف نستعرض فيما يلي نماذج لأفضل التجارب لبناء ما وراء المحركات. 


اشتملت صفحة المعلومات ”^ Search Engine Wa)c0B‏ فی فبرایر 2018 علی 
1 أداة بحث تستخدم تقنية ما وراء المحركات. بعض هذه الآدوات تعرض قائمة 
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شاملة بمحركات البحث المستقلة المرشحة للبحث Startpage, DuckDuck Jie‏ 
pi‏ ,60 والبعض الآخر لايعرض المحركات المستقلة المشاركة فى ماوراء 
المحركات مثل, eازEX×xC P0 fusion‏ حیث تستخدم هذه المحركات قالباً اا للببحث. 
ومع ذلك يمكن الوصول إلى القائمة المستخدمة في البحث من خلال خيارات 
البح nllتغقe .Advanced or Customized Search Options‏ 


وبمراجعة أبرز النماذج المتاحة لماوراء المحركات أتضح أن المحرك*(ءامع00 
YJ (http://www.dogpile.com‏ يقوم بدمج النتائج المسترجعة» إنمايستعرض نتائج كل 
محرك مستقل على حدة» بينما يقوم كل من M41١3‏ 411 ع514۲4 بدمج النتائج من 
خلال استخدام المكررات في ترتيب القائمة النهائية» حيث يتم الدفع بالوثائق التي تظهر 
في أكثر من محرك بحث مستقل إلى قمة القائمة. بالتالي فإن الوثيقة التي تظهر في ثلاثة 
محركات تسبق وثيقة أخرى ظهرت في محركين فقط. وتقوم Îدö‏ الح MetaCrawler)‏ 
(Ihttp://www.metacrawler.com‏ بجع درجة تشابه الوثائق المكررة بالتالي تحصل 
الوثائق المكررة على درجة أعلى من الوثائق الفريدة 0001۴15 U ni¶ue‏ . 

وتعتمد أداة lزڪیث gde Profusion (http://www.profusion.com/index.htm)‏ 
وزن المصطلحات» حيث يتم استخدام كل من درجة التشابه المسترجعة من المحركات 
السا رالد رة التى حضل فل هامر الت اسل فى مر ةة ي المحركات 
المستقلة. ولكن ال كا اساسا قىت افر أن لم كر ارات المستقلة 
تسترجع الوثائق مصحوبة بدرجة التشابه» ولكنها تسترجع الوثائق مرتبة فقط دون أي 
معلومات إضافية عن الدرجة التي حصلت عليها كل وثيقة. بالتالي يتطلب استخدام هذه 
المعادلة تعاون المحركات المستقلة مع ماوراء المحركات )2001 (Callan..Connel,‏ 


أما أداة البح iyeتlجıر )MetaGer) http://meta.rrzn.uni-hannove1.de‏ فتعتمد 
على نظام التحليل والتحميل لترتيب القائمة النهائية. حيث تستخدم الترتيب الأصلي 
للوثائق المسترجعة من المحركات المستقلة إلى جانب تردد المصلحات فى عناوين 
تلك الوثائق» أو ما وراء البيانات a٤ةله6۲‏ أو ملخص الوثيقة. كما تعتمد أداة الببحث 
urs‏ على نظام التحليل والتحميل» حيث يتم تحميل الوثائق بالكامل على 
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خادم ماوراء المحركات ثم تحليلها وبناء الكشافات. وتجدر الإشارة هنا إلى أن 
أداة البحث” كعاانسود[ تعتمد على تردد المصلحات إضافة إلى تقارب المصلحات 
jn Term Proximity‏ أجل ترتیب القوائم النهائية. 

وتستخدم أدوات ما وراء المحركات بكثافة في مواقع حجز الفنادق وشركات الطيران» 
حيث تمكن تلك الأدوات من البحث بكفاءة في محركات البحث لشركات الطيران 
والفنادق لتقديم أفضل عروض الشراء الخاصة بتذاكر الطيران وعروض الفنادق. 


4 5 بوابات الویب 
Web Portals‏ 


يوجد عدد كبير من المصطلحات المستخدمة للدلالة على مفهوم بوابات الويب 
منها فهارس الاإنترنت ءع هه1٤ ۸٥۲‏ )ہ[» والمداخل sرa 4ew‏ 6. والبوابات ءاھ ۴0۲» 
والبوابات الموضوعية كلهه۲ )ءعزط»5.. .الخ. وتشير هذه المصطلحات إلى مجموعة 
الآدوات التي تسعى إلى تنظيم مصادر المعلومات المتاحة من خلال تقسيمات 
موضوعية شاملة بحيث تشتمل البوابة على جميع آنواع المصادر والخدمات التي 
يحتاج إليها المستفيدون من خدمات الشبكة العنكبوتية مثل خدمات بريد إلكتروني» 
دردشة» قوائم خدمات وقوائم بريدية» المواد الإخبارية» أسعار العملات» أحوال 
الطقس» إلى جانب قوائم موضوعية بمصادر المعلومات المتاحة من خلال البوابة 
إلى جانب محرك يتيح إمكانية البحث في البوابة. وإلى جانب التنوع في الخدمات 
التي تقدمها البوابات للمستفيدين منهاء نجد أن هذه المواقع عادة ما تتضمن برامج 
تساعد على تحلیل استخدامات المستفیدین ۸121۷7٤۲‏ ٥2ء0‏ ا۷ وتساعد على 
تحليل التوجهات بغرض بناء ملفات سمات المستفيدين ؛ءااگهإ۴ إمءلا ويمكن من 
خلال هذه الملفات التعرف إلى احتياجات المستفيدين والتنبؤ بها بالتالي اختيار 
Big Search Engines Index--- http://www.search-engine-index.co.uk (1)‏ 


)2( ملحوظة المحرك مانمعه2 قام بتغيير استراتيجيته للدمج والفرز في شهر يوليو 2005 حيث 
أصبحت تعتمد على عدد مرات النقر على الصفحة وفتحهافي كل محرك مستقل. 


تمتيل المعرفة على الإنترنت 


المصادر المناسبة لكل مستفيد من المستفيدين من الموقع. ويمكن أن تقوم تلك 
المواقع باستخدام تکنولو جیا الدفع Pushing Technology‏ إلى المستفیدین من 
الموقع. ويمكن أن تتم عملية الدفع عبر خدمات البريد الإلكترونى التي توفرها تلك 
المواقع أو إلى الصفحات الأمامية للمستفيدين من هذه المواقع كمايمكن أن يتم 
الدفع إل دوسيهات خاصة للمستفيدين من هذه المواقع. 

من ثم فالبوابات عادة ما تيسر لمستخدمي تلك المواقع كل آنواع الخدمات التي 
يحتاجون إليها بصورة تفاعلية ممايوفر كل احتياجات المستفيد من خدمات ومصادر 
القكة الكو ةة قى مقابل ذلك تس البرانات إلى جدذت الشرگات انی تس 
إلى الإإعلان عن منتجاتها وخدماتها لتحقيق الأرباح من خلال تلك المواقع حيث إنه 
من المعروف أنه كلما زاد عدد مستخدمي الموقع تهافتت الشركات على الإعلان عن 
خدماتها ومنتجاتها من خلال هذه المواقع (2005 ,ه1]¡). 


وتنقسم بوابات الويب وفقأً للجمهور الذي تخدمه إلى نوعين أساسيين هما 
.(Yakal, 2005)‏ 


10.5.1 البوابات العامة 


General Portals 


يقدم هذا النوع من البوابات خدماته لقطاع عريض من المستفيدين من الشبكة 
العنكبوتية بصرف النظر عن النشاط أو التخصص الموضوعي أو المجال الجغرافي 
للصفحات التي تغطيها البوابة. وعادة ماتوصف هذه النوعية من البوابات بآنها 
بوابات أفقية Horizontal Portals‏ حیث إِنھا تعمل علی نطاق فقي سواء من حیيث 


التغطية الموضوعية أي تغطي كل مجالات المعرفة البشرية أو على النطاق الجغرافي أو 


(1) #5 تعسو« لم يعد متاحاً على الويب وهو أداة بحث أعدها كل من لورانس وجيل لتحليل 
معدلات الزيادة فى الويب وسرعة محركات البحث فى التغطية. 


العمري. 


الفصل العاشر 


بمعنى أنهاغير متحيزة لمنطقة جغرافية أو فة عمرية أو حتى جنس معين. 


وتشتمل هذه النوعية من البوابات على خمس فئات من الخدمات هى: 


12.1 


12.2 


12.3 


12.4 


12.5 


12.6 


12.7 


محرك بحث يسح باسترجاع صفحات ومصادر المعلومات التي تم 
تجميعها في البوابة. 

الآدلة الموضوعية التي تقوم من خلالها البوابات بعرض لمجموعة منتقاة 
البريدية وقوائم الخدمات. 

المستفيدين من البوابة على التعرف إلى أهم التطورات في كل المجالات 
وفقاً لاهتماماتهم المحددة في ملف سمات المستفيدين. فإذا كان المستفيد 
من المهتمين بلعبة كرة القدم تبث هذه الصفحة مجموعة المواد الإخبارية 
الخاصة بلعبة كرة القدم ما إذا كان من المهتمين بالسياسة فتشتمل هذه 
الصفحة على مجموعة من الأخبار السياسية. 

التجارة الإلكترونية ٤٥۳۴۲٥۴‏ عنصهءا م۳۴1 حيث تشتمل البوابات على 
من خلال إمكانيات التسوق الإإلكترونٿ Electronic Shopping‏ . 

المواد المرجعية حيث تتضمن هذه المواقع إمكانيات اللحصول على 
المعلومات المرجعية من المصادر المختلفة مثل درجات الحرارة» اسعار 
العملات» اتجاهات البورصات. قواميس لغوية وغيرها من المصادر التى 
تساعد على الإجابة عن التساؤلات السريعة والمحددة مثل: ماهى درجة 
الحرارة المتوقعة في مدينة نيويورك في الأيام الثلاثة التالية. 

المسابقات والاستفتاءات: حیث إن هله المواقع عادة ما تقوم بعمل 
حول موضوعات مختلفة سياسية ورياضية واقتصادية وغيرها. 


تمتيل المعرفة على الإنترنت 


ومن أمثلة البوابات العامة التى تغخطى مختلف مناحى الحياة بوابة مايكروسوفت 
العربية /http://www.arabic.ar abi 4.081.٥0‏ وبوابة ياهو ww w.ya100.00۳‏ وبوابة 
جو جل ١۳٥e.c0[ع00ع. www‏ وبوابة جو Galaxy www.galaxy. ةبl gı WWW.£0.°c0°"‏ 


com‏ وبوابة /http://N ww .exci{e.c0‏ وغيرها. 


10.5.2 البوابات المتخصصة 
Specialized Portals‏ 


يسعى هذا النوع من البوابات إلى خدمة جمهور بعينه له سماته الخاصة سواء 
كانت سمات لغوية» حيث توجد بوابات بلخات معينة مثل بوابة العرب //:))[ 
/www.arabsgate.com‏ وبوابة مكتوب العربيıة‏ ”b.c0ۆhttp://www.makto0«‏ 
والبوابات المتخصصة في مجالات موضوعية معينة مشل بوابة إسلام ون لاين //:p؛)"‏ 
|ine.net/english/index.shtmاlamonاw.is ww‏ بوابة الحاسب الآلى http://www.‏ 
/hecomputerportal.com‏ البوابة الصحية hitpvwthehealilinortailooin‏ کما 
ظهر في الآونة الأخيرة العديد من البوابات الحكومية التي تقدم من خلالها خدمات 
الحكومات الاإالكترونية Electronic Government Services‏ مثشل بوابة الحكومة 
الرقمية المصرية 1ط4۲3/£ع.W.e8¥P.20۷‏ س //:pاh‏ بوابة الحكومة الرقمية الأمريكية 
/FirstGov http://w w.egy pt. gov. eg/ Arabic‏ بوابة حكومة دبی الذكية ۷W.‏ 1)://۷ 
.ubai.ae/ar/Pages/ default.aspx‏ ویشار لی هذه البوابات ال بمصطلح 
البوابات الأفقية ئ‰ Vertica1 Po‏ في مقابل البوابات الرأسية العامة. 


يمكن الحصول على قائمة بالبوابات الموضوعية من خلال موقع البوابات الأفقية 
.http://www.verticalportals.com‏ 

وقد ظهر في الآونة الأخيرة نوع جديد من أدوات البحث والاسترجاع يعرف 
بالأعوان الذكية ع4 ا١ءعالاما"!‏ التى تسعى إلى توظيف تكنولوجيا الذكاء 
الاصطاعي كار ت راس ج ير هكن نالرت (نی اسجاجات 
المستفيدين من خلال مايقوم به من عمليات ومايصله من رسائل بريد إلكتروني 


الفصل العاشر 


ومايقوم بفتحه من صفحات ويب. ويرى الخبراء في مzJãg Search Engines‏ 
yng Watch www.searchengienewatch.com‏ قع (018 WWW. W3.‏ ) ان ھذە الأعر ان 
الذكية تسعى إلى توظيف إمكانيات لغة التكويد |cwgnlة‏ )صÛp eXtensible Mark‏ 
Langue (XML‏ في بناء أدوات بحىث دڵılة Semantic Searching‏ لکي تتوافق مع 
الجيل الجديد من الشبكة العنكبوتية الذي يعرف بالويب الدلالي اء ء1٤١4٠م؟.‏ 


وعلى الرغم من تنوع طرق الوصول إلى المعلومات على الشبكة العنكبوتية إلا أن 
5 من المستفيدين من الشبكة العنكبوتية يصلون إلى المعلومات من خلال البحث 
فى محركات البحث. وقد أوضحت دراسة التى أعدها معهد ستانفورد للدراسات 
الكمية آن الببحث واسترجاع المطارمات امان في الروة ااب من حت الخدمات 
المستخدمة بكثافة على شبكة الإنترنت» بينما يآتي البريد الإلكتروني في المرتبة 
الأولى (2004 ,١ا‏ 6۷). 


وقد أشار كل من ني وابرنج في دراستهما إلى أن الإنترنت تعد اليوم مكتبة 
عامة هائلة تتيح العديد من الخدمات التجارية والمجانية جنباً إلى جنب. وأن 
أك اا امات اعارا ا0 على ف الت نت ل قي اة فوالسل 
والمنتجات» والهوايات» وشركات الطيران» والمعلومات العامة والذي غالبامايتم 
من خلال محركات البحث. كما أوضحا أيضاً أن كل المستفيدين الذين تمت مقابلتهم 
آثناء إعداد الدراسة أكدوا أنهم نجحوافي واحدة أو آكثر من أنشطة جمع المعلومات 
اللازمة لاحتياجاتهم على الرغم من تنوع وتعقد الأدوات المستخدمة واختلاف تلك 
الاحتياجات )2000 .(Nie & Erbring,‏ 


الخلاصة أن تقنيات البحث والاسترجاع على الشبكة العنكبوتية هي أدوات لا 
غنى عنهاللوصول إلى مصادر المعلومات المتاحة على هذه الشبكة. وتعد محركات 
الببحث من أكثر الأدوات استقرارآ وتطورا وتوظف هذه المحركات أساليب متطورة 
لاسترجاع المعلومات إلى جانب أن هناك بعض الجوانب الجديدة في محركات 
الببحث التي تجعل من استرجاع المعلومات على الشبكة العنكبوتية يختلف إلى حد 
ماعن نظم استرجاع المعلومات التقليدية. 


تمتيل المعرفة على الإنترنت 
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11 مقدمة 


يشتمل هذا الفصل على مراجعة علمية تفصيلية للدراسات المتعلقة بتمثيل 
المعرفة بمحركات البحث وآليات تكشيفها وفرزها في بيئة الويب من خلال 
تحديد ملامح تلك البيئة والفرق بينها وبين غيرها من بيئات تمثيل المعرفة. ويركز 
الفصل بصفة أساسية على المنهجيات والقياسات المتبعة فى دراسات الويب. وقد 
تم ق الدراات إلى ذراسات راقة مل في الات © كل وفراسات 
معملية تتم في المختبرات وفي بيئات اصطناعية» ثم تناول الفصل آليات التكشيف 
وطرق دراستها. وسيتناول الفصل كل السبل الممكنة لدفع النتائج وترقبتها بمحركات 
البحث» إلى جانب عرض لطبيعة المشكلات التي تتناولتها الدراسات بغرض توضيح 
اتجاهات الإنتاج الفكري في هذا المجال إلى جانب طبيعة المناهج والأساليب 
القعة فى در اة تلك المشكلات و جد ر الا شار ة أن ذرافات الویت مازال كمي 
التراسات الا الي تسى إلى اة عن فاه قراف مها من ت ال 
وطبيعة الاستخدام وهو مادعى إلى ظهور مصطلحات جديدة في الإنتاج الفكري 
المتخصص في مناهج البحث للإشارة إلى هذه النوعية من الدراسات والقياسات 
التي تتوافق معهامن همها مصطلح قياسات الوب Ms‏ طا . 


11.1 التكشيف والفرز فى بيئة الويب 
WEB INDEXING AND Ranking‏ 
خلال الأعوام الأربعين الماضية مرت طرق وأساليب تكشيف واسترجاع 
المعلومات بمراحل متعددة وتطورت بشكل مذهل من خلال التجارب والاختبارات 


الفصل الحادي عشر 


التي أجريت عليها. ومع ظهور الشبكة العنكبوتية تم تطوير تلك الأساليب لكي 
تستخدم في تكشيف واسترجاع المعلومات من خلال محركات البحث ولكي تتوافق 
مع طبيعة البيئة الجديدة التي تعمل فيها هذه المحركات» حيث تم في بعض الأحيان 
تطويع هذه الأساليب» وفي أحيان أخرى تم توسيعها أو تغييرها بالكامل لكي تشمل 
طرقا جديدة للتكشيف والاسترجاع والفرز. 

يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على اختلاف أنواعها 
على أساليب التكشيف الآلي» حيث إنه الأسلوب الذي يتناسب مع طبيعة الويب 
من حيث الحجم Size‏ والاتساع ityاabiاcaء.‏ والتحديث ءلم المستمر لمحتواها. 
وتعد محركات البحث هي الأداة الوحيدة في الوقت الحالي القادرة على التعامل مع 
الويب بهذه المواصفات. وتختلف محركات البحث من حيث طبيعة المواد التي 
تت هافن ماد رال ويا رمن حيبت ال افر الا سالب التي سد ها فی تف 
تلك المراد اة إلى آها تاف سن حة القدرات الى فيا لحت السرا 
ها إلى جادي تر الماد ر ال هة فسهل وهر ما ومر العام كاه الى 
تسترجعها محركات البحث عندما يتم بحث الاستفسار نفسه في أكثر من محرك في 


الوقت نفسه. 


كما تختلف محركات البحث من حيث الإأجراءات التي تتبعها في تحديد حجم 
المادة المكشفة التي تتراوح ما بين التكشيف الانتقائي والتكشيف الشامل» حيث تعلن 
بعض المحركات صراحة أنها تكشف عدد N‏ من الحروف أو من الكلمات الأولى 
في الصفحات المكشفة» والبعض الآخر عادة مايكون غامضا في هذه الناحية. كما 
آن بعض محركات البحث تقوم ولا ببناء مستخلص تشتقه من الصفحات المكشفة 
ثم تستخدم هذا المستخلص في تكشيف تلك الصفحات. 

ومن أمثلة الأساليب المستخدمة في التكشيف على الويب مايتم تطبيقه في 
محرل البحث E×٣1۲۴‏ الذي يدعي استخدام سلوب الاشتقاق الذكي للمفاهيم 
Concept Extraction‏ nteigentا‏ باللاعتماد على استخدام منهجية درجة التشابه 
Similarity Score Approach‏ التي تعتمد على وزن المصطلحات. وتجدر الإشارة 


دراسات تمثيل المعرفة والاسترجاع والفرز في بثة الويب 


إلى أن هذا الأسلوب يكتنفه كثير من الفب وف ظا اده فة اباس على 
المصطلحات كثيرة التردد» وهو مايمكن خداعه ببساطة من خلال استخدام أساليب 
خداع محر كاٽ بح Search Engines Spamming or PersUaSi01‏ التي تعتمد على 
التعرف إلى أساليب التحليل والتكشيف والفرز في المحركات بغخرض دفع أو ترقية 
النتائج في محر كات الح .Search Engine Optimizati0¬‏ 

وتختلف محركات البحث فى أساليب وإمكانيات فرز المخرجات والتى تعتمد 
على إجراءات وأساليب لوف المستخدمة بتلك المحركات» إضافة إلى نوع 
وحجم المعلومات المخزنة في ملفات البحث. ومن الطرق والأساليب المتبعة في 
فرز النتائج ما يلي )1996 .(Big Search Engine Index, 2002; Chu & Rosenthal,‏ 


1. الفرز وفقا لتردد المصطلحات 


يعتمد هذا الأسلوب على تحديد درجة معينة لكل وثيقة تتراوح بين (صفر 
وواحد) وفقا لعدد مرات ظهور مصطلحات البحث في الوثيقة. فالوثيقة التي يظهر 
فيها مصطلحات البحث 5 مرات أفضل من وثيقة أخرى ظهر فيها مصطلح البحث 3 
مرات. وبالتالي فالوثيقة الأولى تسبق الوثيقة الثانية في الترتيب. كمايمكن دمج هذا 
الأسلوب مع حجم الوثيقة ة للتعرف على أهمية المصطلح في الوثيقة ة» ففي حالة وجود 
وثيقة مكونة من 1000 كلمة وظهر فيها مصطلح البحث عشر مرات» ووثيقة أآخرى 
مكونة من 100 كلمة وظهر فيها مصطلح البحث 5 مرات» فبالدمج بين سلوب تردد 
المصطلحات وحجم الوثيقة نجد أن الوثيقة الثانية أفضل من الوثيقة الأولى إحصائيا. 


2. الفرز وفقاً لمضاهاة ١‏ من مصطلحات البحث 


على سبيل المثال نفترض أن استراتيجية بحث تتكون من 7 مصطلحات جميعها 
كلمات بحثية (أي لم ترد في قائمة الاستبعاد). فالوثيقة ثيقة التي تشتمل على كل 
المصطلحات الواردة في الاستفسار أفضل من وثيقة أخرى تشتمل فقط على ستة 
من هذه المصطلحات السبعة والتي تكون بالتبعية أفضل من وثيقة ثالثة تشتمل على 
5 مصطلحات فقط وهكذا. 
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3. مكان ظهور المصطلح 

تعتمد هذه الطريقة على تحديد موضع مصطلحات البحث في الوثيقة ثيقة» فالوثيقة 
التي تظهر فيها مصطلحات البحث في بدايتها مثل العنوان أو رأس الوثيقة يفترض 
نها أفضل من وثيقة أخرى تظهر فيها مصطلحات البحث في وسط أو نهاية الوثيقة. 


4. تقارب المصطلحات 


يشير إلى الوثائق التي تكون مصطلحات البحث فيها مجاورة لبعضها البعمض 
والتي تعد بالطبع أفضل من وثيقة أآخرى تشتمل على مصطلحات البحث في مناطق 
متفرقة من الوثيقة. 


5. استخدام الميتاداتا 


تعلن بعض محركات البحث صراحة آنها تعطي أولوية خاصة للوثائق ق التي تشتمل 
على وصف مسبق باستخدام معايير الميتاداتاء بينمايعلن عدد آخر من المحركات آنه 
يتجاهل الميتاداتا تماما فى عملبات التكشيف والفرز. 

6. عدد الروابط 


e E E‏ ق ری 
کی ال ك u SS,‏ 
سلوب واحد في فرز النتائج» ولكنها عادة ما تستخدم أكثر من سلوب للفرز في 
الوقت نفسه. وعادة ما تخفى المحركات الأسلوب الذي تستخدمه فى تكشيف وفرز 
النتتائج. مع العلم أن هذه العمليات يمكن الكشف عنها من خلال الفحص الدقيق 
لأساليب التكشيف والفرز في محركات البحث. 


وتختلف بيئة استرجاع المعلومات على الشبكة العنكبوتية عن بيئة استرجاع 
المعلومات التقليدية فى العديد من الجوانب منھا: Huang, 2000; Rasmussen,(2003)‏ . 
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Collection Size تIمولعملا حجم‎ .1 


فعدد الصفحات والمواقع المتاحة على الشبكة العنكبوتية ضخم جداً وفي تزايد 
مستمر» إضافة إلى أن هناك صفحات يتم حذفها وأخرى يتم تعديلها. ومن الجدير 
بالذكر أن هناك جزءا كبيرا جدا من الشبكة العنكبوتية غير مرئي ا۷ عاطذئزه1 
لأدوات البحث والاسترجاع التقليدية ويحتاج إلى أدوات خاصة للتعامل معه. وتنقسم 
صفحات المعلومات المتاحة على الويب إلى ثلاثة آنواع آساسية هي: الصفحات 
الثابتة كsمعه۴‏ عناهاS‏ والصفحات الديناميكية كءعد۴ عنصومر والصفحات التفاعلية 
.[nteractive Paes‏ والفرق بينها ببساطة أن الصفحات الثابتة لهامواقع يمكن لأي 
شخص الولوج إليهاء بينما الصفحات الديناميكية تحتاج إلى كلمات مرور وتحديد 
هوية أو إجراءات بحث مثل صفحات البريد الإلكتروني وقواعد البيانات» ما 
الصفحات التفاعلية فتحتاج إلى إجراء ا لی ای و اب المسفيد حت 
تظهر على الويب مثل مايحدث عندمانقوم باستفسار محركات بحث الشبكة 
العنكبوتية وتظهر لنا صفحة نتائج البحث» التي تعد في هذه الحالة صفحة تفاعلية 
تختفي بمجرد غلق آداة التصفح. 


Variability عgiتll‎ .2 


يوجد قوع كبير قي الصفحات والمواقع المتاحة على الشبكة المنكبوتية من تواح 
متعددة مغل : 

° الحجم 812: توجد صفحات لا تتعدى بضع كلمات وصفحات يصل حجمها 
إلى ملايين الكلمات. 

٠‏ هيكل البناء Structure‏ eع۴a:‏ هناك طريقتان أساسيتان لبناء المواقع 
والصفحات هما البناء السطح Structure‏ ۴ والذي یعتمد على سرد 
المعلومات بشكل تتابعي مع التقليل قدر الإمكان من الروابط الفائقة 
”ال81 التي قد تتسبب في إرباك القارئ وقطع تركيزه. أما الطريقة الثانية 
فتعرف بالقوائم الساقطة Drop Down Menu‏ وھي الطريقة التي تعتمد على 
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استخدام الروابط الفائقة بشكل مكثف» بحيث يتم قراءة ومتابعة المعلومات 
من خلال قوائم أساسية تنتقل إلى قوائم أآخرى. ويعد هذا النمط» من آهم 
الملامح المميزة للويب كبيئة لاسترجاع المعلومات» إلا آنه قد يحدث إرباك 
للمبتدئين في التعامل مع الشبكة العنكبوتية. 


التر كيز كءه۴: يعتمد أسلوب الكتابة في بناء مواقع الويب على الأسلوب 
الصحفي الذي يحاول تقديم كبر قدر من المعلومات في أقل مساحة ممكنةه 
إضافة إلى استخدام الروابط الفائقة للحصول على المعلومات المفصلة. 


الحودة واناه @: حيث تعد جودة المعلومات المقدمة على الشبكة العنكبوتية 
من القضايا الشائكة التي تحتاج إلى بحث مضنِ وشاق من جانب المستفيد 
للتأكد من صحة وسلامة المعلومات التي يحصل عليهامن تلك الشبكة. 
فمن المعروف أن المعلومات التي تنشر على الشبكة العنكبوتية لا تخضع 
للمراقبة أو المراجعة وهو ما جعل من الشبكة العنكبوتية تحمل الكثير من 
المغالطات والمعلومات السطحية. لذلك تظهر الحاجة إلى معايير لتقييم 
جودة المعلومات التي تقدمها مواقع الويب. وتوجد العديد من الدراسات 
التي تحاول وضع معايير لضبط جودة المعلومات المتاحة على الشبكة 
العنكبوتية بحيث يستطيع المستفيد تقييم المصادر التي يحصل منهاعلى 
المعلومات (فراج» سبتمبر 2003). 


الدقة رعه٣سءء4:‏ تتميز الشبكة العنكبوتية بأنها بيئة ديمقراطية للنشر لا تخضع 
للرقابة أو التحكم» ما أدى إلى وجود تضارب كبير بين المعلومات المتاحة 
المعلومات المت اة على الشبكة العتكرتية كث ر دقة من غير ها من المصضادر. 
والحقيقة أن الويب مثلهامثل غيرها من بيئات استرجاع المعلومات تطرح 
بيئة النشر التقليدية حيث يوجد بها مصادر إلكترونية يتم تحكيمها وحوكمتها 
بآليات صارمة للتحقق من دقة وجودة المعلومات» وبها المصادر الحرة مثل 
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الموسوعات المفتوحة التي تعتمد على إتاحة معلومات عامة والمدونات 
التي لا تخضع للرقابة أو التحكيم. 

٠ه‏ التنوع في آنواع الوثائق 0٥u") 1ye‏ ه رازه۷ ۷16: فالوثائق المتاحة 
من خلال الشبكة العنكبوتية تشتمل على أشكال متنوعة مثل صفحات ومواقع 
الويب» ملفات البى دي إف ۶2۴» الكتب» الدوريات» الرسائل الجامعية» 
یں را ی وای ا ا 
في شكل رقمي. هذا إضافة إلى التنوع في الأدوات المستخدمة في إعداد 
هذه الوثائق مثل لغات ^ HTML, XML, XSL, JAVA SCRI1P1, JAVA,‏ 
..CSS, PDF Maker, Office Tools,..etc‏ 


3. التكرار في الوثائق والمواقع المتاحة على الشبكة 

كثير من صفحات ومواقع الويب متاحة من خلال أكثر من خادم واحد حيث نجد 
الصفحة نفسها متاحة بالمحتوى نفسه من خلال أكثر من موقع في البلد نفسه أو في 
بلدان مختلفة» مما يؤدي إلى خلط كبير عند التكشيف والاسترجاع كما يؤدي إلى ارتفاع 
من المقاييس المهمة المستخدمة في قياس فعالية آدوات البحث والاسترجاع المتاحة 
على الشبكة العنكبوتية )1999 .(Hawking; Craswell; Thistlewaite; & Harman,‏ 

Hyperlinks ةقئlفلا الروابط‎ .4 

الوثائق المتاحة على الشبكة العنكبوتية مرتبطة ببعضها البعض من خلال شبكة واسعة 
من الروابط الفائقة ksہiاHyper Network Of‏ والتی تعد من آهم الملامح الخاصة 
التي تميز الشبكة العنكبوتية عن غيرها من بيئات استرجاع المعلومات مثل قواعد 
الباتات السار اة وقد اح هذه الميزة [مكانية زنط قراعة البانات الل راف 
بالنصوص الكاملة للدوريات الإلكترونية وغيرها من مصادر المعلومات الإلكترونية. 
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5. المعالجة القبلية و١أكءم)٤ه٠٣مءPr‏ 


تحتاج الصفحات ومواقع الويب المتاحة من خلال الشبكة العنكبوتية إلى معالجة 
قبلية ۲۲٠0۲0٥88108‏ بسبب حجمها و طبيعتها الديناميكية المتغيرة» الأمر الذي يتطلب 
وة عامة من المعادر ر لمر كی تل على ا في ت عات 
الكش رالاس جام فد الال الا ما ي بد الرو لحف ار الاب 
Spiders or Crawls‏ من زیارة خوادم الشبكة العنكبوتية بغرض تجميع الصفحات 
ومتابعة تحديثها وهو آمر من الصعب أن يتم من دون برامج خاصة للمعالجة القبلية 
اروا ا انا ف وه ار قل 

Queries تIluختڌull‎ .6 


غالبا مايكون حجم الاستفسارات التي توجه إلى أدوات البحث على الشبكة 
العنكبوتية أقصر من غيرها فى البينات التقليدية. وقد أئبت العديد من الدراسات 
أو الا ارات الس فى اله وة راح حاو کاو الى 
ثلاث بمتوسط 2.4 كلمة في الاستفسار الواحد أما الاستفسارات التي تستخدم في 
الاسترجاع من قواعد البيانات سواء كانت ببليوغرافية أو نصية فتتراوح مابين 12- 15 
مصطلح فی llلnتwgط‏ )2000 .(Jansen; Spink; Pfaff,‏ 


User B‌hav1 ٥۲ سلوك المستفیدین‎ .7 


يختلف سلو المستفيدين في التعامل مع بيئة الويب عن سلوكهم في التعامل 
مع غيرهامن مصادر المعلومات مثل المكتبات وقواعد وبنوك المعلومات. فالويب 
تتميز بآنها بيئة تفاعلية إلى جانب طبيعتها الترابطية الديناميكية التي نتجت عن 
اعدا الوص ا2ا (عاف اى ج ااا ةر اة ا ا 
ما أعطاها أبعاداً سياسية وثقافية واجتماعية وميزات إضافية أخرى تفوق غيرهامن 
مصادر المعلومات التقليدية (2001 ,إعط†ه٣).‏ 
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11.2 ملامح الويب 


توصف الشبكة العنكبوتية بأنها فضاء واسع وموزع يتضمن كما هائلاً من مصادر 
المعلومات» كما توصف بأنها مكتبة عامة ضخمة. كما وصفتها جرفيث بأنها مصدر 
معلومات متاح كلياً لملايين من البشر في جميع أنحاء العالم على الرغم من أنها 
تفتقد إلى الملامح الرسمية للمكتبة والغرض والاتجاه المحددين للمكتبات اللذين 
يتشكلان من خلال سياسات تنمية المقتنيات وبناء المجموعات. ومع ذلك فهي 
بالنسبة لعدد كبير من المستفيدين أكبر وآهم مصدر معلومات إلى جانب أنها أكثر 
المصادر إقناعا بالنسبة للمستفيدين (1999,ءطان؟؟:ا6). 


على الرغم من أن حجم الويب غير مؤكد ولا يمكن التعرف عليه بدقة عملياًء إلا 
أن هناك بعض التقديرات لعدد الأجهزة المضيفة (8ا1105) وعدد صفحات المعلومات 
المتاحة على هذه الأجهزة المضيفة. إضافة إلى تنبؤات عدة بمعدلات نمو الشبكة 
العنكبوتية (انظر على سبيل المثال حيث استخدم براي البيانات المشتقة من كشاف 
النصوص المفتوحة ×ءله1 ×16 _ «عم0 لعام 1995 حيث أنتج مساحة مرئية ثلاثية 
الٴبعاد "hee - Dimensional Visualization Area‏ للشبكة العنكبوتية يعتمد على 
رؤية مؤشرات للمواقع (e5ا؟‏ 0ا ٣٤۴۲‏ ذه) والحجم أو عدد الصفحات في الموقع 
الواحد وعدد المؤشرات التي تخرج من الموقع إلى مواقع أخرى بالتالي فهو يعتمد 
على ثلاثة جوانب أساسية هى (2000 Bray 1996; Diligenti, et e1.,‏ ( :_ 


- عددالروlبط‏ الخlرجaة External Hyperlinks‏ التي شیر الین الموقع. 

.Number of Web Pages ح|لl عددالصفحات في الموقع‎ _ 

- عددالروارط التي شیر ال مواقع أخرى داخل الموقع .Internal Hyperlinks‏ 

يوجد العديد من الدراسات التي تناولت ملامح الويب على ساس أنها كتلة 
و مجموعة وثائق کلام0۲٥»‏ حيث قام وودروف وزملاؤه بتحليل أكثر من 206 آلاف 


«Domain Names للتعرف علی الأسماء السائدة للمو اقع‎ )1ہktomi‎ Web Crawler) 
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حجم الوثائق» الآأكواد المستخدمة في أعداد الصفحات» عدد الروابط الفائقة 
وغيرها (1996 e٤. e1,‏ ,گا .)W0d‏ كما اختبر جرفينستيت ونوش الطبيعة متعددة 
اللخات للويب u41عنا N1٤‏ باستخدام طرق تعتمد على تردد المصطلحات !۷0 
Frequencies‏ في اللغات المختلفة فعلى ساس تحليل قاعدة بيانات 4ائ1 ۸1)4۷ وجد 
ا ف ا اللات برعا عا الريب وان اللات الآ خر ف واد 
مستnر‏ )2000 ٠ .(Grefenstette; & Nioche,‏ 


وقد حاولت مجموعة من الدراسات وصف الويب في إطار نظري» فعلى سبيل 
المثال تناول البرت وجونج وبراباسي البناء الطوبولوجي Structure‏ ogica1اopo‏ 1 للویب» 
حيث قاموا بتحديد المعامل ل على آنه أقل عددا من الروابط مما 0۸1 التي تحتاج 
إليها عند الإبحار بين زوج من الوثائق. فتوصلوا إلى أن متوسط عدد الروابط يصل إلى 
9 رابطاًء وهو ما فسروه بأنه قطر مساحة الدائرة التي تربط بين آي صفحتين على الويب 
بالاعتماد على قياس أصغر مسافة بين أي نقطتين على الشبكة العنكبوتية والتي تتمثل في 
الحد الآدنی من الروابط بينھnا‏ )1999 ,siځBarab‏ & ٠ ٤ (Albert; Jeong‏ 


وقام برودر وزملاؤه بدراسة الويب على آنها شكل هندسي مكون من صفحات 
أطلقوا عليها نهايات طرفية (كءله١)‏ وروابط فائقة sج«ناامم‏ ر1 أطلقوا عليها أقواس 
الدائر ء٣ه.‏ وكان ناتج دراستهم رسم شكل يمثل طبيعة الوصلات التي تربط بين 
صفحات الويب وبعضها البعض» وقد أوضح هذا الشكل أن هناك نقاطا مركزية 
n1‏ وهي نقاط بها عدد هائل من الروابط بحيث تشمل الصفحات القادرة 
على أن تتصل ببعضها البعض من خلال الإبحار باستخدام الروابط المتاحة في هذه 
النقاط المركزية» وقاموا بمقارنة نتائج دراستهم مع نتائج دراسة البرت وزملائه إلا 
آنهم وجدوا أنه لا يوجد مسار مباشر يربط بين 75./ من النهايات الطرفية (الصفحات) 
.Broder, et. el, 200‏ وقد استخدم کل من هيوبرمان وادميك )& Huberman‏ 
)Adamic, 9‏ بيانات موقع آليكسا «Alexa- www.alexa.co‏ ومحرك بحث 
أنفو سيك 0ء.ek).60 WWW. nf ose‏ (ekعInf0s)‏ للتعرف إلى الطبيعة الديناميكية 


لزيادة صفحات الويب واكتشفا أن توزيع حجم المواقع يتبع قانون القوة 14۷ P0۷۲‏ 
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والذي يظهر في شكل خطي على ساس 102-1٥2‏ أو لوغاريتم -لوغاريتم (وهو 
عبارة عن رسم بيانى ثنائي الأبعاد يوضح علاقة لوغارتيم بلوغاريتم آخر). كما 
أوضحا أيضاً أن عدد الزوار لأي موقع والروابط التي تشير إلى هذاالموقع أو تربط 
الموقع بمواقع أخرى تتبع أيضاً قانون القوة. 

ومن الواضح أن هذه التوزيعات مفيدة جداً حيث إنهايمكن أن تساعدنا على 
الوء بطي العلاقات ن الو انط الفاقة زبمعدلات الريادذة فى صفحات الريب 
إلن جاي ار ال او س الا مم ك اتات 


وقد ساعدت الطبيعة الديناميكية للويب والتى تتمثل فى معدلات الزيادة والتغير 
والتبديل سواء في محتويات الصفحات yT‏ جانب الإلغاء والحذف 
المستمر للعديد من الصفحات على أن أصبحت الويب بيئة فريدة تتميز بشكل كبير 
عن بيئة استرجاع المعلومات التقليدية. فمعرفة الطبيعة الديناميكية للويب يتيح مؤشر 
قوي يساعد محركات البحث في التعرف إلى الوقت المناسب لزيارة وإعادة زيارة 
لخدم Server Re- Visiting‏ و اال الروبوت أو غيره من آدو ات التجميع لتحديث 
کشافاتها وقواعد بیاناتها. 


وتوجد مجموعة من الدراسات التي حاولت التركيز على معدلات التغيير والتعديل 
والتحديث في صفحات الويب» ومنها ماقام به دوجلاس وزملاؤه بتحليل معدلات 
الاستجابة للمحتوى الكامل لصفحات إحدى الشركات التي لهاموقع على الويب من 
خلال استخدام طلبات تعتمد على برتوكول تحويل النصوص الفائقة 117۴» ووجدوا 
أن 16.5./ من المصادر التي تم الوصول إليها على الأقل مرتين تم تحديثها في كل مرة 
تمت زيارتها (1997 ,1ع e.‏ ,isاچ00u).‏ وقام كوهلر بدراسة مدى بقاء صفحات الويب 
من دون حذف أو تغيير» حيث اختبر مدى البقاء ومعدلات التغير لعينة من صفحات 
الويب ومواقع الويب. ووجد أن حوالي 1.12 من مواقع الويب و20./ من صفحات 
الويب فشلت في الاستجابة بعد ستة أشهر. وقد ازدادت إلى 18./ للمواقع و32./ 
للصفحات بعد عام واحد ون 96./ من الصفحات أجرت تعديلات في محتواها أو 
شکلها خلال 6 شهور وآن 99./ من المواقع آدخلت تعديلات بعد عام واحد Koehler,)‏ 
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9 . كما اختبر لورانس وزملاؤه عناوين أكثر من 100.000 مقالة متاحة فى قاعدة 
بيانات »Research 1¬nde×‏ ووجدوا أن عدد المقالات التي لم تعد متاحة غ الويب 
انخفض من 53./ عام 1994 إلى 23./ عام 1999 وأن متوسط عدد العناوين في المصادر 
العلمية المتاحة على الويب يتزايد بشكل كبير باستمرار إلا آنهم توقعوا أن يحدث ثبات 
في معدلات الزيادة مع نهاية عام 2005 )2001 .(Lawrence, et. e1.,‏ 


آما برونجتون وسيبنكو فقد استخدما بيانات تجريبية ونماذج تحليلية 
Ana1ytic Modeling‏ لحساب الوقت المناسب لمحركات الببحث» الذي 
يجب بعده إعادة تكشيف صفحات llوı How Often a Search Engine‏ 
h0u1d Re-index Web Pages‏ باللاعتماد علی معاملین اساسیین هما (۵٥ھ‏ ۸ 
8 ا الد اة حت إن ۸ے تی آل حال آن بكرن سرك الت جريا 
وحديشا لعينة مختارة عشوائيا من صفحات الويب وذلك خلال فترة زمنية 
معينة )2000 .(B) (Brewington & Cybenko,‏ 


ويتضح من العرض السابق ن الدراسات التي ركزت على الملامح العامة للويب 
قد اتخذت الاتجاه الوصفى التحليلى فى كثير من الأحيان والتجريبى فى أحيان قليلة. 
وقد تمثل هذاالاتجاه فى ستة أبعاد أساسية هى: 
1. معدلات الزيادة فى الشبكة العنكبوتية من حيث الخوادم» والمواقع» والصفحات» 
والمستفيدين.. إلخ. 
2. متوسط عدد الروابط الفائقة المستخدمة فى صفحات الويب سواء كانت 
روابط داخلية أو روابط خارجية وتأثير ذلك على شهرة صفحات الريب ا۷6 
.Page Popularity‏ 


3 آنواع وأحجام الصفحات والمواقع المتاحة على الويب والبرامج المستخدمة 


في إعدادها والأكواد التي يكثر ترددها في صفحات ومواقع الويب وخصوصاً 
أكواد الميتا أو الأكراد الوضفية. 


4. تحديد شكل الويب من خلال رسم خراقط لاتجاهات الروابط الفائقة 
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والمسارات التي تتخذهامن حيث المواقع الجغرافية أو اللغات أو أنواع 
الوثائق فيما يعرف بالبناء الطوبولوجي للويب. 

5 فراسة الطبيعة الديتاميكبة للربب والمتمقلة فى معدلات الزبادة والقصان 
والحذف والإضافة والتعديل وأثر ذلك في أدوات الببحث والاسترجاع 
وبصفة خاصة محركات البحث. 


والموضوعي. 


11.3 قياس الثبات فى محركات البحث 
Measuring Search Engine Stability‏ 


صفحات ومواقع الويب أن تكون ديناميكية أيضا عند تعاملها مع الوثائق المتاحة 
في تلك البيئة المتغيرة» مما يؤدي إلى نتائج غير ثابتة ومتغيرة في عمليات البحث 
والاسترجاع. وقد أدى هذا التغيير الديناميكى إلى ظهور مشكلة رئيسة في استرجاع 
من سيلبرج وايتزوني بتحليل نتائج محركات البحث من خلال تكرار البحث أكثر من 
مرة خلال فترات زمنية معينة. ووجدا أن هناك اختلافا كبيراً في النتائج المسترجعة 
أك بكر ممايمكن هوق ا للدراساك الت رة مدي ادلات ال اة تي 
حجم أو تغير الويب. فأشارا إلى النتائج التي تختفي في قسم ثم تظهر مرات أخرى 
في النتائج العشر الأولى 10 و٥1»‏ وأرجعاذلك إلى تغيير في عمليات المعالجة 
والتكشيف لتحديد جودة النتائج المطلوبة أثناء وقت nllعlفئجة Selberg & Etzioni,)‏ 
0. وفی دراسة أخری مطولة قامت بھا بارا -آلان استغرقت عاماً كاملا انقسمت 


الفصل الحادي عشر 


الخدمات (1998/9 .)84-114١,‏ وقد قام روزيو بمتابعة يومية لمدة اثني عشر أسبوعاً 
لمجموعة من المواقع المتاحة من خلال محر كات الح AltaVista and Northen‏ 
1 ووجد عدم ثبات في محرل البحث ء4۷٤۸1‏ مقارنة بالمحىرA Northern‏ 
Light‏ . وقداقترحت ضرورة تجميع بيانات دورية لقياس ملامح الويب ومدى الثبات 
چ محر كات الببحث (21,.1998/1999عءءu٠R)‏ كما أعدت بارا طريقة ة لتقييم أداء 
محركات البحث ومدى الثبات في أداء تلك المحركات خلال فترة زمنية محددة 
من خلال قباس العاوين التي تساها محركات الث (بمعتى عد العتاؤين التي 
ل تتابع مدی تحدیثها). 


ويتضح مما سبق أن دراسات الثبات ركزت بصفة أساسية على مدى الثبات في عناوين 
للتغير في عناوين تلك المواقع. هذا وإن كانت الأولى أكثر أهمية من الثانية لأنها بالطبع 


11.4 قياس التغخطية فى محركات البحث 


من المنطقى أن نعتقد أنه عند بحث الشبكة العنكبوتية فإننانبحث فى جزء معين 
ی اا عر الجر دای اطا ف احا ا ی ا ای 
طبيعة الشبكة العنكبوتية التي تتميز بأنها موزعة على نطاقات جغرافية كبيرة جدا لا 
يمكن لآي محرك بحث مهما كانت كفاءته وسرعته آن يستطيع تجمیع کل صفحات 
ومواقع الويب في جميع أنحاء العالم إضافة إلى النمو المذهل والسريع في حجم 
الشبكة العنكبوتية الذي جعل محركات البحث على الرغم مما تتميز به من أدوات 
تجميع متميزة عاجزة عن متابعة وتحديث صفحات الويب هذاإلى جانب عدم قدرة 
الزواحف على تجميع المواقع والصفحات المتاحة فى الويب غير المرئي والويب 
المظلی ردقل کل ین ارات وبرردر زیر ره لساب الفط فی خر کات 
الببحث بدلا من الاعتماد على القيم المحدودة التي تنشرها المحركات حول عدد 
الصفحات التي تغطيها قواعد البيانات :و قداو جد الباحتان انه سن بين أك ر آربحة 
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محركات بحث أن التغطية تتراوح مابين 1.47-17 من الصفحات المتاحة على 
الشبكة العنكبوتية. (ط1998 ,ء80 & ,812۲۹) كما أوضح لورانس وجيل آنه من 
بين أكبر ستة محركات بحث لا يوجد أي من هذه المحركات يغطي أكثر من ثلث 
الصفحات المتاحة للتكشيف ط٥۷‏ ء1طة×ه1ه1 وأن أقل المحركات تغطية لا يغطى أكثر 
من 3./ من الصفحات المتاحة للتكشيف (19985 ,sع[¡G‏ & rence‏ awا).‏ وفی دراسة 
ار ها رر ول 0 0 ا 3 وتن لر الس هرن غد 
الصفحات» وعدم قدرة محركات البحث على ملاحقة هذا النمو» حيث أوضحا أن 
أكبر محركات البحث من حيث التغطية لا يغطي أكثر من 16./ من الصفحات القابلة 
للتكشيف. وقد أوضح لورانس وجيل أن هذا التناقص المستمر في حجم التغطية 
يرجع إلى فاعلية التكلفة وعائد التكلفة» القيود التكنولوجية التي تفرض على سعة 
عمليات التكشيف والاسترجاع والقيود التي تفرض على سعة الشبكة . (ع٥٣ 14We‏ 
9 ك1#ز6 &) وإن كنا نتفق مع كل هذه الأسباب التي طرحت فإننا نضيف أن تر كيز 
محركات البحث ينصب على صفحات المعلومات التي تنتج وتتاح من خوادم الدول 
التي تنتشر فيها خدمات الاستضافة في أمريكا وأوروبا والشرق الآسيوي» نظرا 
لسهولة التعرف إليهاء يؤدي إلى تناقص التغطية مع زيادة حجم الصفحات والمواقع 
التي تنشر من دول وبلغخات أخرى على الشبكة العنكبوتية. 


يجب أن نشير في هذا السياق إلى أن النتائج السابقة لايمكن الاعتماد عليها نظراً 
للطبيعة المتغيرة» إلا آنه يوجد العديد من المواقع التي توفر بيانات أكثر حداثة عن 

حجم التغطية في محركات البحث مثل: 
http://www.searchenginewatch.com‏ 


http://showdowns.com 

وقد قام نوتيس بقياس حجم الصفحات والمواقع المتاحة على شبكة الإنترنت بالاعتماد 
على تقدير حجم الصفحات المكشفة فى ثمانية محركات بحث عالمية (2004 ,sوعاN0).‏ 
كماقام كل من هينزينجر وزملاؤه باختبار مدى تكشيف صفحة معينة في عدد من محركات 
الببحث وذلك بالاعتماد على أسلوب الواقعة الحاسمة ٤١ء‏ 1ءه] 1ناذا لتقييم شمول 
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التغطية في محركات البحث» وذلك من خلال تتبع الروابط الفائقة للصفحة للتعرف على 
مدى تكشيف الصفحة الرئيسة والصفحات المرتبطة بها في كل المحركات محل الدراسة 
las .(Henzinger, et, el, 1999)‏ قام کل من فوغان وثيلوال بقياس التحيز في تغطية 
محركات البحث العالمية Search Engines Coverage Bias‏ وذلك من خلال المقارنة 
بين مدى تغطية الصفحات التجارية والحكومية المتاحة على خوادم 42 دولة. وأوضحت 
الدراسة وجود درجة كبيرة من الاختلاف في تغطية تلك المحركات فعلى سبيل المشال 
وجد أن 4اءهاا۸ يغطي 82./ من المواقع الفرنسيةء بينما يغطي فقط ./36من المواقع 
المصرية. وقد آثبتت الدراسة تحيز محركات البحث للصفحات المتاحة على خوادم في 
الولايات المتحدة )2004 .)uhan & "hela,‏ کما اکتشف کل من موشيوتز وکاوجشي 
طريقة جديدة لقياس التحيز في التغطية "65s‏ ءھ81 eع0۷e۲4)‏ من خلال اختبار النتائج التي 
يسترجعها أحد محركات البحث ومقارنتها بالنتائج التي تسترجعها مجموعة من المحركات 
مجتمعة (2002 ,0۷8۲0۷2 .)M‏ کما قام مقداد بقیاس مدی تعرف محركين بحث مختلفين 
على روت الل اعرا رقد ر تما على يف رامد جاع السرا الذريا ر الالى اتن 
أعلى مقاييس التغطية للمواقع العربية (2002 ,لةل)M0u).‏ 


وقد أو ضح مو قع lزويm http://www.searchengienswatch.c0m”‏ في دیسمبر من عام 
4 أن محرل البحث جوجل يعد أكبر محركات البحث من حيث التغطية ويبلغ حجم 
قاعدة بياناته 20 بليون صفحة. وقد بلغ حجم قواعد البيانات لعدد من محركات البحث 
الشهيرة مثل ¥2100 vista, Ath eweb ad‏ ما بين بليون إلى 5 بلايين صفحة. ويرجع 
تفوق محرل البحث ماع٥60‏ إلى أسلوب التكشيف الذي يستخدمه حيث يعتمد على تحليل 
روابط لري )11 Web Hyperlinks Analysis. (Sullivan. ,2005a, December‏ . 


ونظراً لأن محركات البحث تعتمد في كثير من الأحيان على الروابط الفائقة 
للتعرف إلى الصفحات والمواقع الجديدة» فقد أوضحت سوزان فيلدمان أنه من 
الصعب أن يتم تكشيف صفحة ويب لا تتضمن أي روابط فائقة» كما أوضحت في 
دراستها أن محركات البحث تستغرق في المتوسط 57 يوما لكي تتعرف على أي 
صفحة جديدة تضاف إلى الشبكة العنكبوتية (1999 ٣2١,‏ 1ء۴). 
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ويرى هينزينجر وزملاؤه أنه نظرأ لعدم قدرة محركات البحث على متابعة النمو 
الهائل والسريع في حجم الشبكة العنكبوتية فإنه من الأفضل أن تركز تلك المحركات 
على جودة عملية التكشيف» فقاموا بتطوير واختبار طريقة تعتمد على السير العشوائي 
Ran 0m Wk‏ بين صفحات الويب وذلك بغرض تقدير قيمة ترتيب الصفحة عع۴a‏ 
6 عمهR‏ بين صفحات الويب» كما استخدموا طريقة بهارات وبرودر لتحديد أين 
أن محرل البحث ١١ء1‏ يعد أفضل محركات البحث من ناحية متوسط جودة الصفحة 
بالاعتماد على مقياس ترتيب الصفحة )1999 .(Henzinger, et al,‏ 


11.5 تقييم التكشيف والاسترجاع من الويب 


عند النظر إلى الشبكة العنكبوتية كبيئة لاسترجاع المعلومات نجد أنها بيئة معقدة 
للغاية. ليس فقط بسبب أن مجموعة الوثائق (صفحات الويب) تتغير باستمرار ولكن 
أيضاً بسبب الاختلاف الواضح بين محركات البحث من حيث عدد الصفحات التي 
يتم تغطيتها في كل محرك على حدة إضافة إلى أن معلومات الصلاحية الخاصة بتلك 
المجموعات غير متوافرة بصفة عامة» كما آنه من الصعب تقييم مثل هذه المجموعات 
الكبيرة للحصول على معلومات عن مدى صلاحيتها. وعلى الرغم من ذلك» فإن 
الزيادة الكبيرة فى أعداد محركات البحث المتاحة قاد الباحثين بشكل طبيعى إلى 
لا ودا الات اه ودا ار ت 
إلى العديد من الأبحاث والدراسات التي تتعلق بهذا الموضوع المهم. 

وة مي جوزدو ن وباناك بين تزعو هن الدراسات قى هذا الإطار وعها 
الدراسات التجريبية (1۵1١0««ذ)ءه1»‏ والدراسات الو صفية iSHodtou‏ على الرغم من 
أن العديد من الباحثين أقاموا إجاباتهم على ساس ملامح عامة وأحداث أو تجارب 
غير منتظمة» فهناك عدد كبير من الدراسات التي حاولت تطبيق معايير صارمة تعتمد 
على نماذج تجريبية في استرجاع المعلومات )1999 .(Gordon & Pathak,‏ 


وتعد المراجعات العلمية من أهم المصادر التي تساعد على التعرف إلى معايير 
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تقييم الأداء. ومن المراجعات المبكرة التي تمت للدراسات المتعلقة بقياس أداء 
محركات البحث» ماقام به سشوارتز حيث حلل في مراجعته العلمية الدراسات التي 
حاولت قياس أداء محر كات البحث خلال الفترة من 1994 حتى 1998 Schwa1)z,(‏ 
8.) كما شار آوبنهيم وزملاؤه إلى الحاجة الملحة إلى مجموعة النماذج والتجارب 
التى تساعد على تحديد معايير لدراسة الأآداء فی محرکات البحګٹ );صOppenhei‏ 
.Morris & McKnight, (2000‏ وبالطبع قادت قلاات إلى سؤال مهم هوما 
هو الشكل الذي ينبغي الاعتماد عليه عند تقييم محركات البحث؟ حيث إن الطريقة 
ابد ية الي تد الى اکر قا ا ا ا ارا وت ل مو جانی الاج یو وای 
تد عاي مهاي الايعا راق قد رن فصر یکل كبر عن فبا آداء 
محركات البحث. وتستخدم التجارب الكلاسيكية التي تتم في بيئة المعمل في هذا 
القياس حيث يتم التحكم في كل العوامل المحيطة ببيئة النظام من حيث مجموعة 
الوثائق التي تكون ثابتة» الاستفسارات التي تتاح في شكل معياري موح الوثائق 
الصالحة لاستفسار بعينة ومعروفة مسبقا. وييسر هذا التحكم والضبط المعملي عمليات 
ساب ومقارتة قايس اقيق والاستدفاء لمجو عة من الا شارات عر مجوغة 
من النظم المختلفة أو لنفس النظام من خلال التنويع في المعاملات الداخلية الخاصة 
بذلك النظام» تا د و ا سن الأداء في البيعات أو اللظم lأئnlgمlلة Operational‏ 
Environment‏ iSÎر‏ ا نظراً لن مجموعة الوثائق تتغير باستمرار ومجموعة الوثائق 
الصالحة لأي استفسار من الصعب حسابها عمليا. فإذا كان المستفيد منخرطا في 
التجربة نجد أن هناك اختلافات عدة تظهر بين المستفيدين من حيث المعرفة العامة 
وخبرات البحث» إضافة إلى التعقيد الشديد في حساب صلاحية النتائج المسترجعة. 


وقد أشار كل من ليتون وسرفيستافا إلى أن نتائج الدراسات التي تمت في المراحل الأولى 
من بناء محركات البحث لا يمكن الاعتماد عليهاء نظراً لأن هناك العديد من التغييرات التي 
طرأت على ملامح محركات البحث وإمكانياتها والأساليب التي تعتمد عليها في عمليات 
التكشيف والاسترجاع. وقد أوضحا أن الجانب الأكثر أهمية في دراسات محركات البحث 
الآن هو عملية التطوير المستمر لطرق تقييم أدوات البحث على الويب» كمايتم تقديم أو 
طرح أساليب جديد ومبتكرة للتقييم (1999) S1۷814۷2‏ & 0۸ا ع]. 
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1.5.1 التقييم في البيئات التشغيلية الواقعية 


تعد دراسة ديبنج ومارشيونيني من أقدم النماذج لمثل هذه التجارب التي حاولت 
تقييم محركات البحث في بيئتهاء حيث تضمنت الدراسة مقارنة بين الملامح العامة 
لكل محرك بحث» إضافة إلى دراسة تجريبية استخدمت عدد محدود من الاستفسارات 
واختبرت ثلاثة من أشهر محركات البحث في ذلك الوقت هي ,08ل ,)مہ1 
×1 enم0.‏ واشتملت الدراسة على تقيیم النتائج الصالحة في مجموعة العشرين نتيجة 
الأولى 20 و٥1‏ لكل استفسار. وقد توصلت الدراسة إلى أنه لايوجد محرك بحث أفضل 
من الآخر وآن هناك اختلافات واضحة في معالجة الاستفسارات. وقد أدهش الباحثين 
في هذه الدراسة انخفاض معدل التداخل والتكرار بين محركات البحث» كما استخدما 
كفاءة عملية التكشيف وسرعة الاستجابة كمقاييس لأداء محركات الببحث (& عمD5i‏ 
6 /) ,0«i«iنطrcة.‏ وفي دراسة آخرى لتومايولو وباكر اللذين حاولا استخدام عدد 
أكبر من الاستفسارات وصل إلى 200 استفسار لتقييم أداء خمسة محركات البحث هي: 
)Magellan, Point, Lycos, Infoseek, AltaVista)‏ بالاعتماد على معدلات التحقيق 
للنتائج العشر الأولى كمقياس لأداء محر كات البحث )1996( .Tomaiuolo & Packer,‏ 
ما شو وروزينسال فقد قيما أداء ثلاثة محركات بحث بالاعتماد على أسئلة مرجعية 
حقيقية تم توجيهها إلى قسم المراجع. وقد اشتمل التقييم على مقاييس أداء أخرى 
مثشل وقت الأستجابةء واختيار المخرجات« وجهد المستفيد Chu & Rosenthal,)‏ 
6.). وقد لاحظت شو الحاجة إلى مقاييس تقييم تعتمد على أحكام المستفيد على 
النظام» حيث اقترحت طريقة منتظمة رع 0ا0 ل0ط)Me Systematic‏ تتضمن الاعتماد على 
المستفيدين الحقيقيين الذين يقومون بجمع معلومات عن ملامح المشاركين في النظام» 
إضافة إلى معدلات التحقيق وترتيب المستفيدين للصأحية Relevance Ranking BY‏ 
5 ورضاء المستفيدين وقيمة النتائج المسترجعة ككل. وقد تم الاعتماد على هذه 
الطريقة في دراسة رائدة لأعضاء هيئة التدريس وطلبة الدراسات العليا وتوصلت إلى 
اختلافات واضحة بين محركات البحث وذلك من خلال المقارنة بين أربعة محركات 
بحث هي )1997 .AltaVista, Infoseek, Lycos ,OpenText (Su,‏ 
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واستخدم ليتون وسيرفستافا 15 استفسارا لقياس التحقيق في 5 محركات بحث هي 
.Ata sta, Excit, HotBot „Infoseek, Lycos‏ وعلی الر غم من أن قيمة محركات 
لیخت التي قامعا قياقد كرون دوه مقار نة بها قان ماعا رقت الدراسة إلاآن 
مقاییس اقيم التي اعتمداعليها جديرة بالاهتمام» حيث اعتمدا على مقياس التحقيق 
في العشرین نتيجة الأولی ۴۲۲20 الذي تم تعديله ليشمل وزن كاإعاء۷ للترتيب ضمن 
النتائج العشرين الأولى. واستخدما أحکام صلاحية ڈiائأı Binary Relevance Judgement‏ 
ضمن خمس فئات محددة (غير خطi(.‏ )1999 „(Leighton & Srivastava,‏ 


ويشير كل من جوردون وباثاك إلى آنه على الرغم من التطوير المستمر في 
محركات البحث إلا آنه لا توجد مقاييس لتقييم الأداء تواكب هذه التطورات» ولا 
يمكن توقع ظهور هذه المقاييس في المستقبل القريب. وتجدر الإشارة إلى أنه مازال 
هناك جدل دائر حول أفضل المقاييس لتقييم أداء محركات البحث”» لأن نتائج 
دراسات استرجاع المعلومات محكومة بماتوفره محركات البحث من معلومات عن 
التطوير وهي معلومات محدودة جدأء كما أن الخوارزميات الجديدة إذاتم توفيرها 
مكدسة وكبيرة مما يصعب تطبيقها. وفى دراساتهما لمحركات البحث وجد جوردون 
اا 0ا ارجام مرت الت فج دیش لی ر قات الاما 
المتاحة لكل محرك بحث أكثر من اعتمادهاعلى قدرات صياغة الاستفسارات 
وإمكانيات البحث المتاحة. كما لاحظا أيضا انخفاض معدلات التداخل والتكرار بين 
محركات الببحث سواء كان ذلك للوثائق الصالحة أو الوثائق غير الصالحة (,«0لإم6 
Pathak, 1999‏ &(. 

ويلاحظ بمعظم الدراسات الكلاسيكية في استرجاع المعلومات التي حاولت 
تقييم آداء نظم استرجاع المعلومات من خلال الاعتماد على مقاييس الاستدعاء 


والتحقيق» أن معظم هذه الدراسات ركزت بشكل أساسي على مقياس التحقيق أو 


.(Text Retrieval Conference) TREC Web Track, 2005 أنظر مؤتمر استر جاع النصوص‎ (1) 
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أو بسبب افتراض ساد فى تلك المرحلة وهو آن التحقيق أكثر مواءمة لاحتياجات 
العسينين من لوبي وا مهادت فل ئى ها الط ار مها اة ورك ایی 
يث استخدما 30 استقسارا وثلاثة محر كات بحث لقاس الاستدعاء فحرضااطريقة 
جديدة لقياس الاستدعاء فى محركات البحث تعتمد على الاستدعاء المسحوب 
Rec11‏ edاP0‏ والذي يتم ف تحديد الوثائق الصالحة من المحركات الثلاثة لكل 
استفسار ويتم تسجيلهم في كشاف كل محرك بحث على حدة ممايؤدي إلى أن 
تكون مجموعة الوثائق المسترجعة من المحركات الثلاثة أساسا لقياس الاستدعاء 
Wie, 1997(‏ & rkeاC).‏ وقد ساعدت هذه الطريقة أيضاً على قياس معايير أخرى 
شملت التغطية» نسبة الوثائق الصالحة التي يحتويها فعلياً كشاف كل محرك. 


وتسعى الاتجاهات الحديثة فى قياس أداء محركات البحث نحو تطبيق معايير 
الجودة .Quality Standards‏ و غل هاا الا ساس تاتش كل من لتو وسر فسغافا 
قضية الطرق التي يمكن الاعتماد عليها في تقييم محركات البحث مثل استخدام عدد 
كاف من الاستفسارات لكي تعطي نتائج إحصائية يمكن الاعتماد عليها في التحليل» 
تجنب التحيز في اختيار الاستفسارات العشوائية في ترتيب محركات البحث» إخفاء 
مار الاح عمق رن يها ل اسن السات وعدا ملا ايرا 
عن التحيز تماما (1999 .)Leihton & Srivastava,‏ وقد قاما بتقییم دراساتهماالسايقة 
في إطار اشتمالها على هذه المبادئ آم لا. وقدم جوردون وباثاك قائمة بسبعة معايير 
ينبغخي أن تعتمد عليها الدراسات التجريبية التي تقيم أداء محركات البحث في بيئاتها 
العاملة Environment‏ erationa1م0p‏ لكى يمكن اعتبارها دراسة دقيقة وذات دلالة 
وهذه المعايير هي )1999( e & Pathak,‏ 

1. مستفيدون حقیقیون. 

2. استخدام استفسارات حقيقية. 

3. استخدام عدد كاف من الباحثين. 

4. دراسة معظم محركات البحث المعروفة. 

5. الاعتماد على المستفيدين أنفسهم أصحاب الاستفسارات في الحكم على 

جودة النتائج. 
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إجراء التجربة بشكل صارم وفقاً لمقاييس الأداء المحددة. 
7. إجراء الدراسة فى ېûة‏ leمlة Operational Environment‏ 


وقد ناقش هاوكنج وزملاؤه هذه القضية المتعلقة بمعايير أداء دراسات التقييم 
وأشاروا إلى ضرورة ترقية ورفع كفاءة الاستفسارات Query Optin1z2101‏ وفقا 
لإمكانات كل محرك بحث» كما قدموا قائمة مراجعة بالملامح التي يجب أن تتوافر 
في الدراسات المستقبلية لتقييم أداء محركات البحث في البيشات العاملة. وقد 
اعتمدت قائمة هاوكنج وزملائه على القائمة التي أعدها جوردون وباثاك وأضافوا 
إليها مجموعة من الملامح التي تتعلق بطبيعة المستفيدين الذين يقومون بالقياسات 
والاستفسارات التي توجه لمحركات البحث (2001 .(Hawking, et. el.,‏ 


11.5.2 التقييم في بيئة المختبرات الاصطناعية 


Evaluation In Laboratory Environment 


تتمثل المشكلة الرئيسة في تقييم استرجاع المعلومات من بيئة الويب في تنوع 
محتوى قواعد البيانات التي تشملها محركات البحث» هذا إلى جانب أن بناء 
مجموعة ثابتة من صفحات الويب وجعل هذه المجموعة متاحة للباحثين يسمح 
بإجراء مقارنات بين محركات البحث بالاعتماد على مجموعة البيانات نفسها. على 
الرغم من أن هوكينج وزملاءه أشاروا إلى أن ذلك يتطلب رغبة الشركات الراعية 
لمحركات البحث في استخدام هذه الطرق ونتائج هذه الدراسات وبطريقة إحصائية 
فإن اللاعتماد على مجموعة من الصفحات الثابتة يسمح للباحثين بفصل مكونات 
نظام الاسترجاع أو خوارزميات تكشيف أو استرجاع محددة في المعامل من أجل 
قياس تأثيرها على الأداء في محركات البحث (2001 e٤. e1.,‏ ,ع« 4W)‏ 8). ویری كل 
من لاندوني وبيل أن التعاون بين الباحثين في مجال استرجاع المعلومات والباحثين 
في مجال دراسات الويب سوف يقود بالقطع إلى وسائل فعالة لتقييم آداء محركات 
الببحث )2000 .(Landoni & Bell‏ 


وقد بدأ خلال السنوات العشر الأخيرة الاهتمام بدراسات الويب من خلال مؤتمر 
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استر جاع النصرص Vټhttp://trec.nist.g0 «(Text Retrieval Conference -TREC)‏ 
وخصص لها مسارايعرف بمسار الويب )ءه1۲ ا۷6 ويهدف هذا المسار إلى إجراء 
تجارب لبناء مجموعات اختبار 0«8ناءا1ه۳ 1651 تضاهي أو تماثل بيئة الاسترجاع 
على الويب. ويعقد هذا المؤتمر السنوي تحت رعاية المعهد القومى للمعايير 
llyتكglgiجla Nini Institute of Standard and Technology (NIST)‏ بهدف 
تشجيع الأبحاث والدراسات في مجال استرجاع المعلومات بالاعتماد على مجموعات 
اختبار كبيرة تشجع عمليات التطوير في طرق التقييم» إضافة إلى تبادل أفكار الأبحاث 

وتطبيقاتها س مجال استرجاع المعلومات من الويب (20002 ,esعط۷o0r).‏ 


ويحصل المشاركون في هذا المؤتمر على مجموعات الاختبار والاستفسارات 
وأحكام الصلاحية التي تسحب لكل الوثائق من خلال مجموعة من المتخصصين 
في إعداد أحكام الصلاحية من داخل المعهد القومي للمعايير والتكنولوجيا. ويعتمد 
الباحثون في هذاالمؤ تمر على معايير تقييم موحدة Standardized Evaluation‏ 
ئئئ عMڪٿ‏ ففي عام 7 عقد أول مسار للويب (9 "r‏ اWe)‏ وتم بناء مجموعة 
من مجموعات الاختبار مخصصة لهذا المسار. وفي المؤتمر الثامن لاسترجاع 
النصوص (8 ۴٣‏ 1۸) تم تجهيز مجموعة اختبار حجمها 2 جيجا بات (ع۷12) 
من صفحات الويب وتم استخدام هذه المجموعة الصغيرة لإجراء بعض الاختبارات 
البسيطة لقياس الأآداء في النظم 

المخصصة .)Hawkin8; et. e1., 2000( Ad H0‏ وفي المؤتمر التاسع تم بناء 
مجموعة تشتمل علی 9 جیجا بایت (ع۷19)» وقد ازدادت هذه إلى 100 جيجا بايت 
((۷11008 وتم استخدام هذه المجموعة للمهام والاختبارات الكبيرة على الويب 
باستخدام استفسارات تم تجميعها من الملفات الخلفية لمحركات الببحث (۸١4۲ءS؟S‏ 
Engine Log Files (Voorhees, 000b‏ ویتلخص الهدف الرئیس من مسار الويیب 
في قياس أفضل الطرق التي تم استخدامها في نظم الاسترجاع التقليدية للتعرف 
على المناسب منها لبيئة الويب من حيث الأداء مع مجموعات الويب» وتجميع 
البيانات من على الويب» هذاإلى جانب تأثير هذه الطرق في المعلومات المترابطة 
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formation‏ inkingا.‏ كما شهدت هذه المسارات اهتمامات خاصة مثل المقارنة 
بین مخر جات التر تيب البو لين ى1 21180 -Rank Output °٥0‏ eanاBoo.‏ وقضایا تتعلق 


بسرعة الاسترجاع ودور الاسترجاع المتوازي R۷21‏ sی)‏ مثل الاسترجاع ماپین 
|JIلغlت .Cross Language Retrieval‏ 


11.6 أساليب التكشيف 
Indexing Methods‏ 


بالنظر إلى حجم وسعة ومعدلات التغيير والتعديل المستمر في الشبكة العنكبوتية 
يكون من الطبيعي أن تسود نظم التكشيف الآلي التي تعتمد على إمكانيات الحاسبات 
الآلية في عمليات التكشيف والبحث. وقد وصف لينش الحاجة إلى التكشيف اليدوي 
والتكشيف الآلي بآنها ضرورة يفرضها تنوع احتياجات المستفيدين وتنوع مصادر 
الويب» حيث يرى أن مهارات التصنيف والاختيار الدقيق التى يمتلكها المكتبيون لا 
بد أن يكملها قدرات وإمكانيات علماء الحاسب الآلي في ا عمليات التكشيف 
وتخزين المعلومات. كما أن الطبيعة الديمقراطية للويب تتيح لناشري الصفحات أن 
يقوموا بتكشيف محتويات صفحاتهم بأنفسهم من خلال وصف محتويات الصفحات 
داخل الصفحات نفسها باستخدام معايير الميتاداتا أو ما يعرف بما وراء البيانات 
.(Metadata (Lynch, 1997‏ 


فمحركات البحث عادة ما تخفى الأسلوب الذي تستخدمه فى تحديد درجة 
التشابه Similarity Score‏ بين الوثيقة ومصطلحات الاستفسار» راھاق لالب 
تعتمد على طرق الوزن اطعذه۷ من خلال تحديد قيمة لكل وثيقة وفقا لخوارزميات 
وزن المصطلحات المعروفة كعمصعhطSc Weighting‏ ermا»‏ ثم یتم ترتیب الوثائق في 
النهاية وفقاً لأسلوب الوزن المستخدم. ولكن محركات البحث عادة ماتستخدم أكثر 
من معامل واحد لتحديد ترتيب الصفحة» فعلى سبيل المثال نجد أن محرل البحث 
8381 يدمج أكثر من طريقة معا لترتيب وفرز النتائج المسترجعة منهاتردد 
المصطلحات» موضع المصطلح في الوثيقة» طول الوثيقة» وجود الميتاداتا. وتعتمد 
أساليب التكشيف على الويب على مجموعة من الأساليب التي سنوضحها فيما يلي: 
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@ 11.6.1 التكشيف بواسطة الناشرين على الویب 
Indexing By Web Publishers‏ 


يمكن للأفراد أو المؤسسات التي تضع صفحات معلومات على الشبكة العنكبوتية 

أن تقوم بتكشيف محتويات هذه الصفحات من خلال إتاحة مجموعة من الكلمات 
المفتاحية التي تصف بدقة هذه الصفحات والتي يمكن أن تستخدم عند تكشيف 
هذه الصفحات من خلال محركات البحث. من الناحية النظرية هذا يتيح على الأقل 
للأفراد والمؤسسات أسلوبا لتوجيه محركات البحث عندما تقوم بتكشيف صفحاتهم 
من خلال استخلاص المصطلحات الممكنة لتكشيف الصفحات. ويوجد العديد من 
الدراسات التى تمت على هذا الأسلوب. كما ظهر العديد من الخدمات التجارية 
والشركات التي تقدم العديد من الإرشادات التي تساعد الأفراد والمؤسسات على 
وضع المصطلحات المناسبة عند تكشيف صفحاتهم» وتعمل هذه المؤسسات بصفة 
خاصة على تغيير ترتيب الصفحة بحيث يمكن أن تظهر الصفحة ضمن مجموعة 
النتائج الأولى في البحث فيما يعرف بالترقية أو تعظيم الفائدة في محركات البحث 
.Search Engines Optimization‏ بعض هذہ المؤسسات تمارس أساليب غير أخلاقية 
لتغيير ترتيب الصفحات (ط1997) .1 ,رعStan1.‏ 


ويعتبر كود الميتا )M64-1٩8(‏ -أحد أكواد لغة تكويد النصوص الفائقة (۲ممر5۸ 
Text Markup Language (HTML‏ - من اکثر الوسائل التی پمکن آن تد علهاناشرو 
ريسن عار اه اا ادع رالرى اتر ي ك امات 
وخاصة في حقل الكلمات المفتاحية sئل١إمسرهK‏ وحقل الوصف Dessipin‏ وتخزن 
هذه المعلومات داخل الملف النصي لصفحات الويب. وتجدر الإشارة إلى أنه ليست كل 
محرکات البحث تقوم بتکشیف أکواد المیتا ٥8-138‏ فعلی سبیل المثال نجد ان ,۴۸81 
Googe, Northern- Light‏ على وجه الخصوص لا يقومون بتكشيف هذا الحقل نظرا 
لأنهم يعتبرونه حقلاً مخادعاً وغير حقيقي لأنه يعتمد على محاولة إقناع محركات البحث 
المعروفة ب 1998 (AltaVista, Infoseek) Turner & Brackbill,‏ 


وقد قام كل من ترنر وبركبيل بتقييم تآثير الميتا تاج في ترتيب الصفحات لمجموعة 
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صغيرة من الوثائق تم إعدادها خصيصاً لهذه الدراسة» حيث اشتملت على مزيج من 
الأكواد. فقد اشتملت مجموعة من الصفحات على حقل الكلمات المفتاحية فقط» 
واشتملت مجموعة أخرى على حقل الوصف فقط» كما اشتملت مجموعة ثالثة على 
کل سن ل اللات الاح ةو ل الر ضف ها ماغات مجمرغة را 
من الصفحات من آي من حقول الميتا تاج. وقد وجد الباحثان أن حقل الكلمات 
المفتاحية على وجه الخصوص ساعد بدرجة كبيرة على تحسين موقع الصفحات في 
کل من 1998 .(AltaVista, Infoseek) Turner & Brackbill,‏ 

إلى آي مدى يعتمد ناشرو الويب على استخدام أساليب التكشيف المتاحة من أجل 
وضع ميتاداتا لوصف صفحاتهم؟ هذا سؤال من الصعب الإجابة عنه بصورة مباشرة نظرا 
لأ الدراسات التى آغدت ى الان تختلف عن بعضها البعض من خث مضدر الوئائق 
معالجة الميتاداتا ت خلال التجميع الآلي للصفحات باستخدام برامج تحرير صفحات 
الويب. فبفحص أكثر من آلف صفحة ويب في بولمير للعلوم ٤٥"ع1ء؟‏ راه وجد 
كين وويزلي أن 24./ فقط من الصفحات تضمنت واحداً أو أكثر من حقول الميتا-تاج» 
وعند تقييمها وجد أن المحددات ءا ا۲٤٤۸‏ يساء استخدامها بشكل واضح (& Qi”‏ 
8 ,yعWes1).‏ وقد لاح ظ كل من لورانس وجيل ندرة استخدام حقول الميتاداتافي 
الصفحات والمواقع التي قاموا بفحصها حيث وجدا أن 34./ من الصفحات تتضمن حقلاً 
مبسطاً للكلمات المفتاحية و/ أو الوصف وأن 0.03./ (أقل من 1./) تستخدم معيار دبلن 
المحوري (2002 ,sعاز6‏ & ع٥«‏ إ14۷). وفي عينة عشوائية مجمعة لصفحات الويب تم 
تجميعها من دليل البحث ۲41٥0‏ وجد كرافين أن 57./ من الصفحات تستخدم الميتا تاج 
وأن 26./ من الصفحات تتضمن حقولا للوصف» بينما استخدم 628 موقعا معيار دبلن 
المحوري لوصف الصفحات (2000 ,«مa۷إ٣).‏ 

وقد درت العديك من الذراسات أن مشكالة تحففت صفحات الویب تل في 
قدرة ناشري الويب كإعطءنااس۴ ا۷6 على معالجة الترتيب من خلال وضع کلسات 
مفتاحية مكررة في الصفحات لخداع محركات البحث» وهو مايشار إليه بالعديد من 
ال صطلحات Search Engine Persuasion .Keyword Spam, Spam-Indexing, Jia‏ 
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عتا#ا, . ونظراً لأن تردد المصطلحات من العوامل المهمة في خوارزميات الفرز 
والترتیب ۳٣۶‏ )اع۸41 ع«kiمھR‏ التی تستخدمها محر کات الببحث فإن تکرار كلمات 
اول معا سرا ااك نے ول الاد اا کے اررض غالا 
Text‏ eا1nvisib‏ (باسستخدام حرق ا او ا ن راا ن ات 
الصفحات) لذلك تظهر هذه الكلمات في النص المصدري للصفحة ولكنها لا تظهر 
في الشكل المعروض على الويب» من خلال أدوات التصفح بحيث لا يمكن للعين 
المجردة أن تراها-يساعد على رفع ترتيب الصفحة ضمن مجموعة الصفحات 
المكشفة والمسترجعة. هذه الطريقة في معالجة الصفحات المكشفة تستخدم كميزة 
تجارية من خلال رفع منتج معين في الترتيب عن غيره من المنتجات المنافسة له 
في السوق أو قد يجذب مستفيدا إلى موقع معين لا يضاهي احتياجاته المعلوماتية. 

وعلى الرغم آنه توجد العديد من صفحات الويب التي قد تحتاج إلى مستوى 
أدق من التكشيف من الذي توفره محركات الببحث ولكن كل الحقائق تؤكد أن قدرة 
التكشيف اليدوي على آداء هذه المهمة محدودة جدآخاصة فى الجزء القابل للتكشيف 
في الويب .1ndexab[e e‏ رفع ا روه ا الخفي من الويب 
Hidden / nvisibاe Web‏ ويقصد به مجمو عة الصفحات الديناميكية والتفاعلية التي تخزن 
في قواعد البيانات أو يتم تجميعها حسب الطلب. وسوف نركز فيما يلي من مناقشات 
على أساليب التكشيف الآلي كما تؤديها محركات البحث في بيئة الويب. 


11.6.2 التكشيف فى محركات البحث 


يوجد عدد قليل جداً من الدراسات التي تصف محركات البحث من حيث بنائها 
والطرق والخوارزميات التي تستخدمها في عمليات التكشيف والبحث والفرز» على 
الرغم من أن هناك العديد من المواقع التي تحاول وصف هذه العمليات إلا أنها 
مواقع لا يمكن التأكد من صحة معلوماتها نظرا لما تفرضه محركات البحث من 
سرية وتكتم على أساليب التكشيف والفرز التي تستخدمها. ويرجع ذلك بصفة 
ساسية إلى المنافسة الشرسة بين محركات البحث التي تبلغ استثماراتها الآن ملايين 
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الدولارات حتى إن اثنين من هذه المحركات هما ۷10٥‏ & عاعمم6 يحتلان قمة 
معدلات الربح التي تحققها شركات تطبيقات الإنترنت في السنوات الأخيرة. وقد 
شار كل من جوردون وباثاك إلى أن الخوارزميات الدقيقة التي تستخدمها محركات 
الببحث في عملية التكشيف والاسترجاع غير معلنة وتعدها المحركات أسراراً 
لملفات دعم المستفيدين وملفات المساعدة والأسئلة كثيرة التردد .۴۸Q‏ والاستئناء 
الوحيد من بين محركات البحث يتمثل في جو جل ء1ع0ه6 حيث نشر كل من برين 
العديد من الذراسات وصفاعاها یکر نات محركات البحك مهاوص ف رسوا 
محرك بحث على مجموعة من المكونات الرئيسة تتمثل فى الزاحف أو الروبوت 
وهو برنامج حاسب آلى يقوم دورياً بمسح الشبكة العنكبوتية من خلال تتبع الروابط 
الكلمات (أو بعض أجزاء من الكلمات))» أو فى بعض الحالات النصوص الفائقة 
Hyp ×‏ من كل صفحة من الصفحات التي يقوم بتكشيفها ثم يقوم ببناء كشاف 
من هذه الكلمات المشتقة. ويتكون محرك الاسترجاع من نموذج الاستفسار 
Query Mode‏ الذي يتلقى الاستفسارات من المستفيدين ونموذج الفرj Ranking‏ 
Module‏ الذي يقوم بمقارنة الاأستفسارات بالمعلومات المتاحة في الكشاف ثم ينتج 
فى النهاية قائمة مرتبة بالصفحات وفقا لعلاقتها بمصطلحات الاستفسار (,uا8ة!A‏ 
e, 2‏ ,.61). وتصمیم هذه المكونات يثير سؤال بحثي مهم يرتہط بامکانیات 
أداء محرل البحث بمعنى إلى أي مدى تؤثر بنية محرل البحث في آدائه من حيث 
التكشيف والاسترجاع. وتعد الزواحف من أهم مكونات أي محرل البحث والتي 
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CRAWLERS حف‎ Iٍوزjلl‎ 11.6.2.1 € 


تتعامل الزواحف مع الشبكة العنكبوتية على آنها شكل 614١‏ فمن خلال 
استخدامها لمجموعة محددة من معينات المصادر اlزnحدة Uniform Resource)‏ 
Locator-)UR £‏ کنقاط ارتکازیة› تقوم هذه الزواحف بمسح الشبكة العنكبوتية 
إماعلى اتساعها أو عمقها بمعنى أنها إما أن تنتقل من صفحة واحدة ثم تتبع كل 
الصفحات المرتبطة بها من خلال تتبع الروابط الفائقة المتاحة داخل هذه الصفحة أو 
أن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من العمق المطلوب في 
تتبع الروابط والذي يتراوح مابين 10-3 روابط في العمق الواحد. 

وقد تناولت الدراسات موضوع الزواحف من ناحية الفعالية والكفاءة في 
الحصول على الصفحات بغخرض التكشيف. وعلى الرغم من الارتباط الوثيق بين 
الفاعلية والكفاءة لأن خوارزمية الزاحف الفعال تقوم بحفظ المصادر ممايرفع من 
جودة قاعدة البيانات ويجعل أدوات التكشيف تؤدي عملها بكفاءة» إلا أن معظم 
الدراسات ركزت على الفعالية أكثر من الكفاءة. ومن القضايا التي تمت معالجتها 
في هذاالإطار هو كيف يمكن وضع آولويات معينة لمعين المصادر الموحدمن 
أجل الحصول على أفضل الصفحات وذلك نظرا لمحدودية قدرة تلك الزواحف 
على تجميع كل الصفحات المتاحة على الشبكة العنكبوتية. 


وقد قام كل من شو وزملائه بوضع نموذج لترتيب ميعنات المصادر الموحد 
)R9(‏ من حيث الآهمية يعتمد على مصفوفة تحدد أهمية الصفحات. وقد 
أوضحوا أن نموذج ترتيب ال 0۸1s‏ الجيد يجعل من الممكن الحصول على جزء 
مهم جدامن الصفحات المتاحة على الشبكة العنكبوتية» بالتالي فان هذاالترتيب 
يساعد على الاختيار من بين الصفحات من أجل الحصول على الصفحات المهمة 
والتخلي عن الصفحات الأقل أهمية وهو أسلوب معروف لدى المكتبيين منذ القدم 
.)Cho, Garcia-Molina, , & Page, 1998)‏ وقد استخدم کل من ناجورك ووينر 
ترتيب الصفحة مه۸ معه۴ كأساس لتحديد جودة المصفوفة ووجدوا أن استراتيجية 
الزحف التي تعتمد على التجميع الموسع أولاً (بمعنى الانتهاء من كل الروابط في 
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الصفحات المصدرية قبل الانتقال إلى الصفحات الثانوية) تعمل بكفاءة أعلى وتوفر 
مجموعة ذات جودة عالية من الصفحات في المراحل الأولى من عمل الزاحف مما 
يجعلها تتفوق على الزحف العميق )2001 .(Najork & Wiener,‏ 

يعد تحديد الوقت المناسب لإعادة زيارة الصفحات !)یا۸ معه۴ من المشكلات 
المهمة التي تتعلق بعمل زواحف محركات البحث. وقد اقترح كوفمان وليو وويبر تحليلاً 
نظريا للوقت المثالي لإعادة زيارة الصفحات يعتمد على معدلات التغيير والتعديل في 
الصفحات (1998 ,.1ع ,.اe‏ ,مج۳؟؟ه). ومن المشكلات التي تؤثر س جودة وكفاءة 
عمليات التحديث في قواعد البيانات ترتيب وتردد زيارة الصفحات بمعنى ماهو الترتيب 
لای وا ع اه ر ا وماهو عدد مرات الزيارة من 
أجل تحديثها؟ وقد ناقش أرسو وزملاؤه الأعمال التي تم إنجازها لتحديث الصفحات 
واختبارها بدقة بغخرض تكشيفها في محركات البحث (2000 .)A ue, e1,‏ 


ومن القضايا الأخرى التي تمت معالجتهافي هذا الإطار تخفيف العبء عن الخوادم 
التي تزورها الزواحف والتنسيق بين مجموعة من الزواحف في عمليات الزيارة بغخرض 
تخفيف الحمل عن الخوادم 10۵4 86۲۷6۲ بدلا من زيارتها في الوقت نفسه. وقد اقترح 
رفغا ن ولیر ووی تمر دجا خا 6061 006019۶ لھ تی عماات الزيارة. يعتمد على 
معدلات الإفادة من الخوادم بمعنى أن يتم تحديد ساعات الذروة في التعامل مع الخوادم 
وتجنب زيارتها في تلك التوقيتات حتى تتمكن من تقديم خدماتها للمستفيدين على أن 
تقوم الزواحف بزيادتها فى غير أوقات الذروة (1998 ,.1ع e.,‏ ,47٣.؟#ه).‏ 


وتجدر الإشارة إلى أن معظم الزواحف تقوم بتقديم معلومات عن الصفحات 
من أجل تكشيفها. ويتم تخزين هذه المعلومات في مستودعات للوثائق بمحركات 
الببحث تربط بين معلومات التكشيف وهذه الصفحات في مواقعها. ومن البدائل التي 
يمكن أن تساعد الزواحف في آداء هذه الوظيفة استخدام أساليب التكشيف الموزع 
Distributed Indexing‏ وتخزین نسخة مخباۃ من الصفحات فيمايعرف بالنتائج 
المخبأة Cashing of Results‏ في نظام الحصاد Harvesting System‏ والذي يمكن 
تمثیله من خلال رشيف الویب (1995 ;ع .ا ,21 .)B0W‏ ومن الجدیر بالذكر أن 
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محرل الببحث جوجل يوفر هذه الخدمة وبدأً الكثير من المحركات تتخذ المنحى نفسه 
في تخزين نسخ احتياطية من صفحات ومواقع الويب في الأرشيفات الإلكترونية. 

وبدلاً من زحف وتجميع أجزاء معينة من الشبكة العنكبوتية يمكن للزواحف أن تركز 
على مجالات موضوعية معينة» حيث تسعى الزواحف إلى التركيز على هذه المجالات 
مما ييسر عمليات التجميع. مما يجعلها أكثر شمولاً في التغطية لهذه المجالات إضافة إلى 
سهولة ودقة عمليات التجميع فيما يعرف بالزواحف المتخصصة ١41۲ء٣‏ 4ءz:اaزءم؟‏ أو 
الزحف الم ركز 2000 .)Focus Crawling) Clarke, et. E1.,‏ وعلى الرغم من ذلك فإن تقییم 
أدء الرواحف الت خم ةة عة صعب جةا قرا لن الصقحات الصالحة عادة ما تكن 
غير معروفة. وقد اقترح اوميرا وباتل نموذجا لبناء وصيانة كشافات متخصصة في مجالات 
موضوعية معينة تصلح للنظم الموزعة. 2001 .O’Meara & Patel‏ 

ویری کل من دیلجینت وزملائه أن تطبيق نموذج النظم lئgnوjغىة Distributed System‏ 
1 في عمليات التكشيف يعتمد على أشكال معينة توضح مسار الزواحف الموزعة 
ممايعني أن الزواحف تتجه نحو التطبيق كأداة فردية في بيئة الحاسبات الشخصية 
بمعنى أنها يمكن أن تتعامل مباشرة مع الصفحات التي يتعامل معها جمهور الإنترنت 
٤i, 2000(‏ iاD).‏ أي آنها بدلا من تجميع الصفحات من خلال الخوادم فإنها يمكن 
أن تقوم بتجميع الصفحات من خلال زيارة الحاسبات الشخصية لمستخدمي الإنترنت. 
وتجدر الإشارة إلى أن هذا الأسلوب لا يمكن التعويل عليه كثيراً نظراً لتوجه كثير من 
الحركات الكبيرة إلى تطربر إمكاناتها بحينك تصبح برابات وينب» بالالي تفا إلى 
متابعة أكثر دقة للخوادم المتاحة على الويب لتقديم خدمات أكثر فعالية للمستخدم وفقا 
لاحتياجاته الخاصة فيمايعرف بإضفاء الطابع الشخصي ١10ا2112٣0ءإء۲.‏ 


11.6.2.2 تقییم خوارزمیات الفرز والترتیب 
Evaluation Ranking Algorithms‏ 
تعتمد بحوث ونظم استرجاع المعلومات على عدد من الوسائل أو الأساليب في 
التكشيف والاسترجاع من أشهرها النموذج البوليني 1ءأM0‏ ١4ء8001‏ نموذج مساحة 
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الزاوية Vector Space Mode‏ والنمو ذڄ الاحتمالي jag .Probabilistic Model‏ النتائج 
الشائعة في هذه النماذج الثلاثة سلوب جذع الكلمات Keyword Stemming‏ استخدام 
قوائم الاستبعاد كائ و٥‏ لاستبعاد الكلمات الشائعة» استخدام نظم تردد ووزن 
المصطلحات tf*idf جgمni Jia Term Frequency and Term Weighting Scheme‏ 
Frequency) * Inverse Document Frequency‏ ermا)‏ بمعنى تردد المصطلحات مضرو ا 
فی عکس تردد الوثائق» إلى جانب معاملات التشابه Similarity Coe ۴fi"‏ لحساب 

درجة التشابه بين مصطلحات الاستفسار ومصطلحات الوثائق (1997 ,عع!K0۲۴).‏ 


ومن العيوب التي تعاني منها محركات البحث كأدوات أو نظم استرجاع معلومات 
ارتفاع عدد النتائج المسترجعة التي تصل إلى آلاف وأحياناً مات الآلاف من الصفحات» 
وانخفاض معدلات التحقيق في تلك النتائج» وعدم قدرة تلك المحركات على الاحتفاظ 
بہنية النصوص الفائقة ١إ٠اء S٣٠‏ ٤×ع٤إءمرط‏ للوثائق المستر جعة بمعنى الاحتفاظ بقائمة 
النتائج المسترجعة» وضعف تلك المحركات في معالجة استفسارات المفاهيم العامة 
.(General Concept Queries) Kao, et. e1l., 2000‏ وãقدJ‏ تم استخدام الأسالبت المعروفة 
في استرجاع المعلومات لتقييم أداء أدوات الاسترجاع في بيئة الويب في السنوات العشر 
الأخيرة. ثم تمت إعادة تقييم هذه الأساليب لكي تتناسب مع تلك البيئة الديناميكية كما 
تم اختبارها في بئات شبيهة لبيئة الویب ike ٤۸۷1۲0۸۳٤۸۲‏ ا۷6 من خلال استخدام 
آساليب محاكاة الويب ١٥0ناةا S۳‏ ا۷ في معامل ومختبرات تقييم نظم استرجاع 
المعلومات التي توفرها مؤتمر استرجاع النصوص* 1۴٤٣٥‏ (الذي يعقد سنوياً لتقييم 
أساليب الاسترجاع المتطورة )2000 .(Hawking, et., el,‏ 


وقد کات محركات البحت اليك رة تكش ف فط اجراء من قات الويب 
ولكن مع الوقت تطور أداء تلك المحركات لتكشف النصوص الكاملة لصفحات 
الويب» ويمكن التماس التفاصيل الكاملة لخصائص محركات البحث من خلال 


مراجعة مو قع .www.searchengineswatch.com‏ 


TREC: Text Retrieval Conference (1) 
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ولكن التفاصيل الكاملة عن أسلوب وزن الصفحات فى الكشافات ووسائل تحديد 
ال لحان أجل ال ر ها ت اة 2 غا ولات س ا 
يمكن الإفصاح عنهاء وعلى الرغم من ذلك توجد العديد من الدراسات التي قدمت 
آساليب لفرز النتائج يمكن استخدامها لمعالجة النتائج المسترجعة من محركات 
بحث الويب. فقد قام كل من يوونو ولي بتقييم أربع خوارزميات لفرز النتائج تعتمد 
على مضاهاة المصطllت Hyper Links ةقٍldll طبlو رلlو Keyword Matching‏ ھذo‏ 
الطرق هي )1996 .(Yuwono & lee,‏ 

- تنشيط الانتشار البو ليني Boolean Spreading Activation‏ 

Most cited ًÎداھشتسا الأکثر‎ - 

- نموذج تردد المصطلحات عكس تردد الوثائق القائمة على مساحة الزاوية 

Tf* idf Vector Space Model 

- تنشيط انتشار الزاوية والتي تدمج بين نموذج مساحة الزاوية وتنشيط الانتشار 


Vector Spreading Activation 


ومن الواضح آنه يمكن تقسيم هذه الأساليب الأربعة إلى: أساليب تعتمد على 
تردد المصطلحات» وأساليب تعتمد على الاستشهادات والروابط بين الصفحات. 
وقد توصلت الدراسة إلى أن الأساليب التى تعتمد على تردد المصطلحات تعمل 
کا رمن اسابل الووادظ رالا مهات كما اقترحا أيضا استخدام 
الاستفسارات القصيرة لأنها تعمل بشكل أكثر كفاءة من الاستفسارات الطويلة مع 
گل من آسالیبا حساب الكلمات واساليب تحليل الروابط والاسشهادات: كما أكد 
كلارك وزملاؤه أن مقاييس التشابه المعياري $0۲ Standard Simi! ary‏ تعمل 
بكفاءة أكبر مع الاستفسارات القصيرة. وقد ساعدت نتائج هذه الدراسة على تطوير 
أساليب لفرز النتائج تعمل بكفاءة مع استفسارات الويب التي عاده ماتتكون من عدد 
قليل من الكلمات. ومن المشكلات التي عالجتها دراسات البحث والاسترجاع على 
الويب مشكلات حجم الكشافات وتنظيم الملفات المتعلقة بتكشيف صفحات الويب 
.(Clarke, et., el, 2000)‏ 
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ومن الأسئلة المهمة التي تم طرحهافي العديد من الدراسات ماإذا كانت أساليب 
الاسترجاع التقليدية يمكن أن تحسن من فاعلية أداء أدوات الببحث على الويب. 
فقد استخدم سافوي وبيكورد مجموعة من صفحات الويب حجمها 2 جيجا بايت 
26 في مؤتمر استرجاع النصوص لتقييم كفاءة أساليب متعددة لاسترجاع 
المعلومات. حيث قاما بتقييم أساليب مختلفة لوزن المصطلحات منها النظام الثنائي 
Binary Systen‏ تردد المصطلحات» تردد المصطلحات مضروبا فی عكکس تردد 
الوثائق» تطبیع طول |lلÛlûgئj «Document Length Normalization‏ کہا تم تقييم 
استخدام قوائم الاستبعاد وجذع مصطلحات الكشاف وتوسيع الاستفسارات. وقد 
تمت كل هذه القياسات لمجموعة من صفحات الويب لتقييم الأداء في بيئة تشبه بيئة 
الويب )2001 .(Savoy & Picard,‏ 


وقد حاول هاوكينج وزملاؤه فحص الطرق المناسبة للدمج بين الملامح العامة 
للنظم العاملة مع التجارب المعملية للتغلب على مشكلات مقارنة أساليب استرجاع 
المعلومات التقليدية مع استرجاع المعلومات في بيئة محركات البحث التي تختلف 
إلى حد كبير عن بيئة الاسترجاع التقليدية. فقاموا بمقارنة مجموعات مؤتمر استرجاع 
النصوص التي تم تجميعها في المؤتمر السابع 7 - 1۸۴٤‏ من خلال استخدام هذه 
المجموعة في فحص كفاءة خمسة محركات بحث من خلال استخدام استفسارات 
آي اه الي خد قي الاسساراف ال ق إلى مجر كات لتحت ,وة اه 
الا لے ا م اتا اكا ا من ر ا ج اتف 
البحث التي تستخدم في مؤتمر استرجاع النصرص (2000 .(Hawking, et. e1.,‏ 


11.6.2.3 استخدام الروابط الفائقة في التكشيف 
Hyperlinks For Indexing‏ 


تعد الروابط الفائقة التي تربط بين صفحات الويب من أهم الملامح التي تميز 


الشبكة العنكبوتية. وعادة ما ينظر إلى هذه الروابط على آنها وسائل الإبحار والتصفح 
الأساسية بالشبكة العنكبوتية. ومع ذلك فإن الروابط الفائقة تتضمن معلومات يمكن 
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استخدامها عند تكشيف واسترجاع صفحات الويب. وترجع أهمية المعلومات التي 
تحرهها الروانط الفاتقة ليس فقط إلى قيمة الروابط: ولكن أيضا إلى أهمية الوثاتق 
المرتبطة بالوثائق قى المصدرية» ومدى شعبيتهاء والتي يمكن تحديدها من خلال كثرة 
الإشارة إلى وثيقة معينة ممايعني آهمية هذه الوثيقة وارتباطها بعدد كبير من الوثائق 


وقد طور كلينبرج نظرية الروابط الناتجة عن الببحث الموضوqe Hyperlink-‏ 
.[nduced opie Search HITS‏ والتى عادة ما تعرف بنظرية النقاط الارتكازية 
ilwÎlyيد e .Hubs and Authorites‏ الهم التعرف إلى مفهوم النقطة الاتكازية 
والأسانيد في هذه النظرية. 

النقطة الارتكازية ء0 #8: هي عبارة عن الصفحة التي تشير إلى مكان وجود 
المعلومات بالتالي فهي تؤشر إلى عدد كبير من الأسانيد. على سبيل المثال دليل 
الببحث يعد نقطة ارتكازية» أو صفحة قائمة المقررات بموقع الجامعة. بالتالي فالنقاط 
الارتكازية تشبة قائمة المحتويات أو الكشاف. 


الأسانيد ءانه طا 4: كما أن السند هو الموقع الذي توجد به المعلومات والذي 
يرتبط بالعديد من النقاط الارتكازية. فعلى سبيل المشال الصفحات التي تشتمل على 
المعلومات الواقعية مثل صفحة المقرر بموقع الجامعة أو صفحة المجلة التي يوجد 
بهاالمقالات. 


وأشار إلى أنها الصفحات التي تتضمن عدداكبيراً من الروابط التي تربطها 
بمجموعة من الصفحات الاأستنادية انئصlئحة Relevant Authoritative Pages‏ 
والأسانيد ٤٤اه A)‏ (وهى الصفحات التى يشار إليها من خلال عددمن النقاط 
اا ق ل تارات اا اتی بین عا کیا من الوثائق الصالحة» عادة 
ماتعمل على استرجاع كل من الوثائق الصالحة ونيد Authoritative‏ (آي الوثائق 
المرتبطة بالوثائق الصالحة» وهو ماعرف في عالم قواعد البيانات الببليو جرافية فيما 
بعد بالوثائق المرتبطة أو الشبيهة). 


وقد اقترح كلينبرج خوارزمية النقاط الارتكازية والأسانيد لكى تستخدم في تحديد 
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الصفحات الاستنادية 0۲١٤4٤1۷٥‏ طا بالاعتماد على بنية الروابط» وللتعرف على 
مجموعة متميزة من الوثائق الصالحة المرتبطة ببعضها البعض. وقد أحدث هذا النموذج 
TEE TTT‏ 
کن اسار جاع الصفحة والصفحات البيهة Pe‏ ان81 كذلك أصبح من الممكن 
استرجاع الصفحة والصفحات المرتبطة با 1998 .(Related Pages) Kleinberg,‏ 


Authority Pages 


Hub and expert pages link to many authority pages 
on a given topic. 


× b. 
Cats 
2 ۱ ` ١ ` 
0 ۷ ⁄ د‎ 
ر ` 1 ر‎ | ` 
« ۳ »ا ۳ « »ا‎ 


An authority page, in turn, is linked to by many 
topically relevant hub and expert pages, and may 
rank higher for associated search terms. 


شكل (1/11) نظرية النقاط الارتكازية والأسانيد 2000 ,.1ء ,أ ۸a0,‏ 
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واقترح كل من لمبل وموران طريقه أخرى للتعرف على الروابط بين صفحات 
الويب تعتمد على بنية الروابط eإاءدءا؟‏ )ص1 تعرف بالمشي العشوائي في الآشكال» 
وذلك من خلال رسم شكل لطبيعة العلاقة بين الصفحات واختيار الصفحات 
عشوائياًء وهي طريقة أكثر كفاءة من الناحية الحسابية من خوارزمية كلينبرج» نظرا 
لآنها لاتحتاج إلى كثير من المعالجات (2000 M0۲4١,‏ & 1١م‏ ٥ا)‏ ولعل أكثر 
الطرق المعروفة والمعلنة لفرز الصفحات باستخدام الروابط الفائقة تعرف بخوارزمية 
فرj‏ انئصaفzة «PagerRank Algorithm‏ التي طورها باج وزملاؤە )1998 (Page et al,‏ 
والتي تعمل على حساب قيمة لكل صفحة من الصفحات المسترجعة والتي تتحدد 
على ساس عدد الروابط في كل صفحة (من وإلى كل صفحة). وتعد خوارزمية فرز 
الصفحة من آهم الملامح المميزة لمحرل البحث جو جل (1998 ,eع۴a‏ & .)Bri”‏ 


افد ت وسح غراززية كابر لفن كتف الصرص إلى جاتب كشيت اروا 
واستخدامها في فرز النتائج» من خلال تطويیر مجمع Automatic Resource رlصnلل Jj‏ 
ARC‏ _ 09 ) ) لكي يقوم بتجميع قوائم بمصادر الويب في موضوعات عريضة. كما 
ناقش كل من بهارات وهينزينجر بعض المشكلات التي تتعلق بخوارزمية كلينبرج الرئيسة 
والتى تشمل جرف أو سحب الموضوعات ا۴ا ام1 والتى لا تمثل موضوعات رئيسة 
بالسبة للنقاط الارتكازية والأسانيد المرتبطة بها .(Bharat & Henzinger,1998)‏ 

ومن الاستخدامات الأخحرى للروابط الفائقة تطبيق خوارزمية تعرف بسلسلة 
التنشيط الو strained Spreading Activation) gl‏ ) بغرض توسیع نطاق البحث 
لتحسين معدلات الاستدعاء» حيث تبدأً هذه الطريقة بصفحة أو مجموعة صفحات 
صالحة pû Relevant Pages‏ تنتشر من خلال شبكة الروابط بين الصفحات لتقوم 
بحساب درجه التشابه 0۲۴ء5 را٣هانصذS‏ لكل صفحة» ثم تحدد إلى أي درجة يمكن 
فرز هذه الصفحة وعرضها للمستفيد. وعادة ما تحدد المحركات نقطة معينة عندها 
يتم تجاهل الصفحة تماما والنظر إلى غيرها. وقد تم تطويره ويعرف ب (4۲1م؟ ا۷6 
By Constrained Spreading Activation (WebSCSA‏ لکي يعمل مرتبطا بمحرکات 
الببحث في مختبرات ٤٣‏ ۲۸. وقد اثہتت نتائج الدراسات تحسين معدلات الاستدعاء 
باستخدام هذه الطريقة بنسبة 30 ./ )2000 .(Crestan & Lee,‏ 
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ويرى كاو وزملاؤه إمكانية استخدام المعلومات المتاحة في الروابط الفائقة بطريقة 
مختلفة تعتمد على دعم تكشيف نقاط الnمرتڪj Anchor Point Indexing‏ وقاموا 
بتعريف النقاط المرتكزة على أنها مجموعة صغيرة من الصفحات المفتاحية والتي 
يمكن من خلالها الوصول إلى مجموعة مطابقة من الصفحات بسهولة وبسرعة مما 
يحافظ على بنية الوثائق المرتبطة s٤إعصuںء20‏ ۵ء )امم ر8 على الويب» وهی تشبه 
النقاط الارتكازية 2000 .(Hubs (Kao, et, el.,‏ 


وقد آشار كل من سينجال وكيسزكيل إلى أن نتائج دراسات مسار الويب في مؤتمر 
استرجاع النصوص أظهرت أن الاعتماد على طرق دعم الروابط فقط لا تقدم آي ميزة 
إضافية عن طرق تكشيف الكلمات وحدها (2001 ,szkielئKa‏ & .)Singhal,‏ ھذo‏ 
التتائج تتعارض تماما مع ماهو معروف في مجتمع استرجاع المعلومات على الويب. 
ومن الأسباب التي أدت بهم إلى هذه النتيجة أن بيئة مسار الويب في مؤتمر استرجاع 
النلصوص تفضل استخدام تكشيف الكلمات المفتاحية عن تكشيف الروابط نظراً 
لاشتمالها على صفحات قديمة («٥0ناءع[1اه٣‏ ءآ dعاه0)‏ بمعايير الويب إضافة إلى 
آحكام الصلاحية التي تفضل الصفحات عن المواقع. وقد أوضحوا أن محركات البحث 
التي تعمل في بيئة الويب أكثر كفاءة من محركات البحث المستخدمة في 1۸۴٤٥‏ في 
اا ا ا وا م لو ار لر ر الك فا کسر و 
أشاروا إلى أن طرق الاسترجاع التي تعتمد على تحليل النصوص lلnمرتكjة Anchor Text‏ 
المشتقة من الصفحة المصدرية أو الرابط المصدري أفضل بكثير من تكشيف المحتوى 
النصي للصفحة الاأستنادية )المر تبط( )2001( .Craswell., Hawking & Robertson,‏ 


4 4 نموذج تحليل الروابط 
Link Analysis Model‏ 
يعرف هذا النموذج في الإنتاج الفكري المتخصص بنموذج ترتيب الصفحة عع۴4 
)«ه. وقد ابتكر هذا النموذج طالبان من طلبة الدراسات العليا في كلية الحاسبات 
والمعلومات بجامعة ستنافورد .Sergey Brin and Lawrence Page ly‏ ویعتمد هذا 
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النموذج على استخدام نموذج تحليل الاستشهادات المرجعية» والذي يفترض وجود 
علاقة بين المقالات المستشهدة والمقالات المستشهد بها. بالتالي يمكن استخدام 
الاستشهاد المرجعى فى التعرف إلى تأثير المقالة فى المجال المعرفى بأكمله. وقد 
ابتکر العالم Eustis Gil‏ اا يعرف e‏ التأثير The Impact [e‏ 
والذي يمكن من خلاله قياس مدى تأثير دورية علمية معينة في أحد المجالات. 
ومعامل التأثير هو عبارة عن متوسط عدد الاستشهادات بمقالات دورية معينة خلال 
عام معين وذلك بعد نشرها بعامين على الأقل. ويعرف هذا المعامل أحياناً بمعامل 
تو قیع |iÛذغlء .The Signature of Intelligence‏ 

وكماهو الحال في العلاقة بين مقالات الدوريات والاستشهادات نجد أن روابط 
الويب كkطا£‏ ا۷6 عبارة عن صلة ديناميكية تشير إلى روابط أخرى وهذه الروابط 
تشير أيضاً إليها. بالتالي نجد أن نموذج ترتيب الصفحة يستخدم العلاقات القائمة بين 
صفحات المعلومات المتمثلة في الروابط التي تربط بين تلك الصفحات على اعتبار 
أنها أكثر موضوعية من غيرها من المقاييس التي تعتمد على مقاييس بشرية ذاتية. 
فتكرار الإشارة إلى صفحة معينة يشير إلى قيمة هذه الصفحة كما يؤكد علاقتها 
القوية بالعديد من الصفحات» كما أنه يعتبر من المقاييس القوية التى تشير إلى كفاءة 
E E O E‏ 
وخاصة صفحات المعلومات من النقص الشديد في معايير الجودة «Quality Control‏ 
بالتالي فهذا النموذج يوفر مقياساً موضوعياً لجودة الصفحات. كما يعتمد نموذج 
ترتيب الصفحة على استخدام طبيعة الويب المكونة من مجموعة من الصفحات 
المرتبطة ببعضها البعض في تحديد ترتيب وأهمية الصفحة ضمن مجموعة الصفحات 
المرتبطة بها )2001 ,ؤMeghabghab(.‏ 

ويتم تحديد ترتيب ائنصضفحة Ranking‏ 6 وفقا لعدد الروابط الموجودة 
في ائنصêûحة In-degree of Links‏ والتي شار إليها کلینبرج بالنقاط الارتكازية» 
وعدد الروابط التى تشير إلى الصفحة صا ٤ه‏ عءإعمل-0ut‏ والتى شار إليها 
بالأسانيد. ۰ ۰ 
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وقد اعتمد القائمون على بناء محرل البحث جوجل على مجموعة من الخرائط 
5 اMالتى‏ قاموا بتجهيزها وتضمنت مايقرب من 518 مليون وحدة من الروابط الفائقة 
8y p#اان «ks‏ لكى تمشل عينة متميزة للعلاقات التى تربط بين صفحات المعلومات 
E ELE‏ و E‏ جر جات سرا ارف الى 
مدى قوة العلاقة التي تربط بين مجموعة من الصفحات» ثم ترتيب هذه الصفحات 
من خلال الاعتماد على تحليل ما تحويه من روابط داخلية تربطها بصفحات أخرى 
والروابط الخارجية التي تربط الصفحات الأخرى بها. ويتميز هذا المقياس بأنه 
مقياس ديمقراطى إلى حد كبير» حيث يحدد مكانة الصفحة بين غيرها من الصفحات 
بناء على مدی آقیسا بالنسبة للصفحات الأخرى سواء بالاإإشارة إلى هذه الصفحات 
أو بالإإشارات التي تتلقاها الصفحة من الصفحات الأخرى. ويتم حساب عددالروابط 
الموجودة في الصفحة وتشير إلى صفحات أخرى كمايتم حساب عدد الروابط التي 
تشير إلى الصفحة المصدرية ثم يتم تطبيع Normalizati0"‏ هذه الحسابات لتحديد 
قيمة تشابه $٥0١۴‏ ران٣هانم1؟‏ بين الصفحة والصفحات أخرى. وتتم عملية التطبيع 
وفقاً للمعادلة التالية: 


نفترض أن الصفحة ۸ مرتبطة بصفحات أخرى تشير إليها (ا¡ ٥‏ ۲١ذه۴)‏ وعددها 
------۲1 والمعامل ل هو معامل ثابت مابين (0- 1) وعادة ما يأخذ القيمة 0.85 
إلا فى حالات استثنائية سنوضحها فيما بعد. وتشير ٤‏ إلى عدد الروابط الخارجة من 
ااا وتشر إلى صفحات ÎخرJ (Point to other Pages)‏ بالتالي یکون حساب 
ترتيب الصفحة (۸) ۲R‏ كمايلي: 


PR* (A) = (1-d) + d (PR(T1) / C (T1) +------------ PR(Tn) / C (Tn) 


نلاحظ من المعادلة أن ترتيب الصفحة k«صه۸‏ ءعه٣‏ يمثل توزيع احتمالي 
Probability Distribution‏ لكل صفحات |lوي Over Web Pages‏ مما یسمح بترتیب 
الصفخات از لا رشا ةة 


ويتم حساب معامل آخر لترتيب الصفحة يعتمد أيضا على بنية الروابط دنا 
Structure‏ وھو معامل يتعلق بسلوك المستفيدين عند التعامل مع الصفحة. وهذا 
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المعامل يتعلق بمعدلات اللإفادة من صفحة معينة» مما يعني أن المستفيد يمكن 
أن يغير من ترتيب الصفحات وفقاً لمدى استخدامه لهذه الصفحات. ويتم تحديد 
مدى الإفادة من صفحة معينة وفقا لعدد مرات النقر على الرابط الفائق المتعلق بهذه 
الصفحة في كل مرة تظهر فيه هذه الصفحة ضمن نتائج البحث» حيث يتم تعديل 
قيمة المعامل 4. فإذا قام المستفيد بفتح الصفحة التي تظهر في ترتيب 3مثلاً ولم 
يفتح الصفحة التي تظهر في الترتيب 1 يعتبر محرل الببحث جوجل أن هذا إعلان 
من المستفيد أن الصفحة 3 أفضل من الصفحة 1 بالنسبة لهذا الاستفسار» ممايجعل 
محرل البحث يعدل من قيمة المعامل ل الخاص بترتيب الصفحة 3. ومع تكرار 
هذه العملية من جانب أكثر من مستفيد قد يؤدي ذلك إلى ظهور الصفحة 3 قبل 
الصفحتين 2.1 إذا كان سلوك كل أو معظم المستفيدين منها يسير في الاتجاه نفسه. 
ويعتبر هذا المقياس أيضا من المقاييس الديمقراطية التي تميز محرك البحث جوجل 
عن غيره من المحركات. وتعرف عملية تعديل قيمة المعامل 4 برد فعل الصلاحية 
Relevance Feedback‏ Jlgلi‏ يتوقف على مجموع سلول المستفيدين من صفحة 
معينة خلال فترة زمنية معينة (2005 ,11ةW).‏ 


11.6.2.5 نصوص الزاوية 


Anchor Text 


تتم معاملة اللصرص التي تعبر عن الروابط في الملف المصدري 80u ا٥٭ ۴1٤‏ وهو 
الملف الذي يشتمل على أكواد لغة تكويد النصوص الفائقة -11١1‏ بطريقة خاصة 
في محرك البحث جوجل. حيث تتعامل معظم محركات البحث التي تستخدم سلوب 
تحليل الروابط ge Link Analysis‏ الروابط التي توجد داخل الصفحة وتكشف النصوص 
التي توجد داخل هذه الروابط» بينما يكشف محرل البحث جوجل الروابط التي تشير 
إلى الصفحة 1 ه) ١١1ه۴.‏ ولهذه الطريقة العديد من المزايا ومنها (2005 ,ط)إصS؟):‏ 


Page Rank اختصار لترتيب الصف‎ PR ٠ 
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° ولا نصوص الزاوية 16×۲ ۸٠١10١‏ التي عادة ما تتضمن وصفا دقيقاً لصفحة 
ال جب وق ما تقد الا ئ جما الرس م قابات ماعا ت 
الموضوع الذي تتناوله» وهو ا اه العديد من الدراسات» حيث إن هذه 
النصوص تمثل عناوين الموضوعات الرئيسة التي تتناولها هذه الصفحات. 

٠‏ ثانياً: نصوص الزاوية تساعد على تكشيف الصفحات التي لا يمكن تكشيفها 
من خلال محركات بحث نصية ext Based Search Engines‏ بالتالی یمکن 
استخدام هذه النصوص في تكشيف الوسائط المتعددة 6٠نا[‏ مغل 
ملفات الصوت. والفيديو» والصور» وبرامج الكمبيوتر» والخرائط» وقواعد 
البيانات.. الخ. 


ه٠‏ ثالفاً: تساعد نصوص الزاوية على تكشيف صفحات لم تقم الزواحف 
بتجميعها أو زيارتهاء بالتالي يمكن من خلال هذاالآأسلوب تجميع 
أكبر عدد ممكن من الصفحات أو التعرف إليها دون الحاجة إلى زيارة 
الخوادم التي تستضيفهاء خحاصة إذا ماعرفنا أن هذه الزواحف عادة ماتكون 
متحيزة جغرافياً ولغوياً في تغطيتها. وهو ما جعل محرك البحث جوجل من 
أكبر محركات البحث وأشملها من حيث حدود التغطية سواء الجغرافية أو 
اللغوية أو الموضوغية أو وفقا للأسماء السائدة 5ة منففوة 5 وتجدر 
الإشارة هناإلى أن هذه الميزة قد تنقلب إلى عيب كبير وتسبب مشكلات 
كثيرة» حيث إن محرل البحث يمكن أن يسترجع نتائج لصفحات لم يزرها 
الزاحف مطلقاً ويتأكد من وجودهاء وهنا يظهر دور المعامل ك والذي يأخذ 
القيمة صفر في حالة الروابط الميتة ما1 544 أو الروابط التي تشير إلى 
صفحات غير موجودة. 


وقد استخدمت فكرة توسيع التغطية من خلال التعامل مع نصوص أقواس 
الزاوية Anchor rext Popa ٤1 ٣8‏ للصفحات التى تشير إلى الصفحات المصدرية 
في محرك البحث ۷0 0۷۷ وهو أول محرك بحث يتضمن زاحفاً- تم بناؤه 
عام 4-لتكشيف الصفحات غير النصية .Non Textual Pages‏ ویعد استخدام 
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نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي 
يتم معالجتهاء حيث إن معالجة 24 مليون صفحة مثلاً تتطلب على الأقل معالجة 259 
مليون نص زاوية وفقاً لما أعلنه محرك البحث جوجل في عام 2010 بمتوسط 10.8 
نصوص زاوية للصفحة الواحدة (2002 ,”11vaاSu).‏ 


وإضافة إلى استخدام الروابط ونصوص الزاوية في تكشيف الصفحات يقوم محرك 
الببحث جوجل بتحديد موقع الرابط 10٥30١‏ )«ذ1 لتحديد أهمية الرابط في الصفحة. 
فتعد الروابط التي تأني في عناوين منفصلة أكثر أهمية من الروابط التي ترد ضمن نص 
ماء والروابط التى ترد فى المحتويات والفغات التى تتضمنها الصفحة أكثر أهمية من 
الروابط التي ترد في عناوين فرعية. كما يستخدم محرل البحث جوجل أساليب التكشيف 
التقليدية مثل أسلوب تردد المصطلحات رcہعu‌هه۴۲‏ mء٥1»‏ التكشيف التجاوري 
«Proximity Indexing‏ gو‏ أساليب وùj‏ lاأnصbطlzlت .Term Weighting Schemes‏ 


من ثم فإن نظام ترتيب الصفحة مه۸ م۲42 يعتمد على الطبيعة الديمقراطية 
الفريدة في الويب» وذلك باستعمال الارتباطات s«ناإهم‏ ر1 كدليل إلى أهمية صفحة 
معينة. بمعنى أن جو جل يفسر الارتباط من صفحة ۸ إلى الصفحة 8 على آنه تصويت 
من الصفحة ۸ لمصلحة الصفحة 8. لكنه لا ينظر فقط إلى كمية الأصوات (أي 
الارتباطات الموجهة إلى صفحة معينة)» بل يحلل الصفحة التي تقوم بالتصويت. 
فإذا كانت الصفحات التي تصوّت «مهمة»» أعطاها ذلك وزناً أكبر» وجعل الصفحات 
اللأخرى التي تصوّت لها مهمة أيضاً. 

تحصل المواقع المهمة عالية الجودة على ترتيب kده۸‏ ع۴۵ أعلى» الأمر الذي 
يتذكره جوجل في كل مرة يجري بحثا. طبعاء لا تعني الصفحات المهمة لك شيئا إن 
كانت لا تطابق بحثك. لذلك يجمع جوجل بين ۸4١k‏ م42 وتقنيات مطابقة النص 
ext Matching‏ المعقدة ليجد صفحات مهمة وتلائم موضوع الببحث على السواء. 
ولا يتوقف جوجل عند عدد المرات التي تظهر فيها عبارة معينة في الصفحة» بل 
يفحص كل أوجه محتويات الصفحة (ومحتويات الصفحات المرتبطة بها) ليعرف ما 
إذا كانت مطابقة للبحث أًم لا (2005 ,#اعمم6). 
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خاتمة 

تناول هذا الفصل عرضا للأساليب والتقنيات المستخدمة فى تكشيف» وتحليل» 
واسترجاع» وفرز صفحات الويب من خلال محركات البحث التي تعد أهم أدوات 
ومعايير تقييم الأداء التي اعتمدت مبدئياً على الأساليب التقليدية المعروفة في نظم 


استرجاع المعلومات» ثم ابتكر الباحثون مجموعة من الساليب الجديدة التي تتناسب 
مع بيئة الويب وماتتميز به من طبيعة ديمقراطية وديناميكية وتفاعلية. 


وقد ثبت من خلال دراسات استرجاع المعلومات أن دراسات الويب من 
القطاعات النشطة فى الوقت الحالى فى مجالات البحث والتطوير؛ نظراً لأهمية 
ما الة لبان والمو سات المسورا فن الطريرغلى خدسرا ردت 
أيضا أن الببحوث ركزت خلال السنوات العشر الأخيرة» والتي شهدت نمو وتطور 
محركات بحث الشبكة العنكبوتية» على ظهور ونمو أساليب مبتكرة للتكشيف 
والاسترجاع كان على رأسها استخدام الروابط الفائقة في تحديد شهرة صفحات 
الويب. كما شهدت أيضا دوراملموسالكل من معايير الميتاداتا وتحديد الفغات 
terin‏ واستخلاص الو Document Summarizati0n jûl‏ وتجميع النتائج 
المسترجعة في عناقید Ru) [ute‏ واستخدام الآشكال في عرض النتائج 
Visualiation‏ tsاResu.‏ هذا إضافة إلى النمو السريع والهائل في بناء أدوات ببحث 
واسترجاع الوسائط المتعددة. وكل هذه الأساليب تسعى إلى تجميع صفحات ومواقع 
الويب في فات موضوعية لتيسير التعامل معها كبيئة لاسترجاع المعلومات. وهو 
ما يؤكد ويبرز الدور الذي يمكن أن تلعبه أدوات أخرى لاسترجاع المعلومات مثل 
مخ رکا تالبك المتنددة ما وراء المح ركات) وبوابات الويب» والأعوان الذكية. 
كل هذه التطورات تؤكد أهمية الدور الذي تلعبه بحوث التطوير في مجال استرجاع 
المعلومات وأساليب التكشيف ودفع النتائج على الويب. 
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